論文の概要: New Benchmarks for Accountable Text-based Visual Re-creation
- arxiv url: http://arxiv.org/abs/2303.05983v1
- Date: Fri, 10 Mar 2023 15:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:34:19.993496
- Title: New Benchmarks for Accountable Text-based Visual Re-creation
- Title(参考訳): アカウンタブルテキストベースのビジュアルリクリエーションのための新しいベンチマーク
- Authors: Zhiwei Zhang, Yuliang Liu
- Abstract要約: 本稿では,新しいテキストベースの視覚的再創造タスクを構築する。
クエリとして1つのテキストイメージペアがマシンに入力され、そのモデルは視覚的およびテキスト的推論の後、イエスまたはノーな回答を与える。
本研究では,不確実性と不完全なユーザクエリに直面した画像品質,回答精度,モデル動作に関する実験結果を詳細に分析する。
- 参考スコア(独自算出の注目度): 27.45768594854149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a command, humans can directly execute the action after thinking or
choose to reject it, with reasonable feedback at the same time. However, the
behavior of existing text-to-image generation methods are uncontrollable and
irresponsible. In this paper, we construct extensive experiments to verify
whether they can be accountable (say no and explain why) for those prohibited
instructions. To this end, we define a novel text-based visual re-creation task
and construct new synthetic CLEVR-NOT dataset (620K) and manually pictured
Fruit-NOT dataset (50K). In our method, one text-image pair as the query is fed
into the machine, and the model gives a yes or no answer after visual and
textual reasoning. If the answer is yes, the image auto-encoder and
auto-regressive transformer must complete the visual re-creation under the
premise of ensuring image quality, otherwise the system needs to explain why
the commands cannot be completed or prohibited. We provide a detailed analysis
of experimental results in image quality, answer accuracy, and model behavior
in the face of uncertainty and imperfect user queries. Our results demonstrate
the difficulty of a single model for both textual and visual reasoning. We also
hope our explorations and findings can bring valuable insights about the
accountability of text-based image generation models. Code and datasets can be
found at https://matrix-alpha.github.io.
- Abstract(参考訳): コマンドが与えられると、人間は思考後に行動を直接実行するか、あるいは拒否するかを選択し、合理的なフィードバックを同時に行うことができる。
しかし,既存のテキスト・画像生成手法の動作は制御不能であり,無責任である。
本稿では,禁止された指示に対して責任を負うことができるかどうかを検証するために,広範囲にわたる実験を行う。
そこで本研究では,新たなテキストベースの視覚再生タスクを定義し,新たな合成CLEVR-NOTデータセット (620K) と手作業によるFruit-NOTデータセット (50K) を構築した。
本手法では,クエリとして1つのテキストイメージペアをマシンに入力し,視覚的およびテキスト的推論の後にイエスかノーの回答を与える。
もし答えがYesなら、画像自動エンコーダと自動回帰変換器は、画像品質を保証する前提で視覚的再現を完了しなければなりません。
本研究では,不確実性と不完全なユーザクエリに直面した画像品質,回答精度,モデル動作に関する実験結果を詳細に分析する。
本研究は,テキスト推論とビジュアル推論の両方において,単一モデルの難易度を示す。
私たちはまた、テキストベースの画像生成モデルの説明可能性に関する貴重な洞察を、調査と発見がもたらすことを期待しています。
コードとデータセットはhttps://matrix-alpha.github.io.orgにある。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。