論文の概要: Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation
- arxiv url: http://arxiv.org/abs/2303.05983v2
- Date: Wed, 14 Jun 2023 16:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 01:45:24.256535
- Title: Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation
- Title(参考訳): 画像再構成におけるヒューマンインストラクションの回避を学習する説明可能なテキスト・ビジュアル・チャット
- Authors: Zhiwei Zhang, Yuliang Liu
- Abstract要約: 我々はCLEVR-ATVCデータセット(620K)とFruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを構築した。
マルチモーダルシステムは人間の要求を拒否するために、データセットに特定のルールを組み込んで監視信号とする。
本研究では,画像の自動エンコーダと自動回帰変換器をスクラッチからトレーニングするための2状態トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 27.45768594854149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of ChatGPT and GPT-4 has drawn widespread attention to
multimodal dialogue systems. However, the academia community lacks a dataset
that can validate the multimodal generation capabilities of Visual Language
Models (VLMs) in textual-visual chat tasks. In this paper, we construct two new
multimodal datasets: the synthetic CLEVR-ATVC dataset (620K) and the manually
pictured Fruit-ATVC dataset (50K), both featuring visual and text-based inputs
and outputs. Additionally, to enable the multimodal system to reject human
requests (i.e., demonstrate accountability), as in language-based ChatGPT
conversations, we develop and incorporate specific rules into the datasets as
supervisory signals. This allows the trained VLM to provide a yes or no answer
after visual and textual reasoning, accompanied by a language explanation as to
why the human instruction cannot be excuted. In our method, we propose a
two-state training procedure to train the image auto-encoder and
auto-regressive transformer from scratch. The first state involves a discrete
variational autoencoder (dVAE) to compress each image into short tokens, which
are then concatenated with text tokens as a single data stream to be fed into
the decoder-based transformer for generating visual re-creation and textual
feedback in the second state. We provide comprehensive analyses of experimental
results in terms of re-created image quality, answer accuracy, and the model
behavior when faced with uncertainty and imperfect user queries. We hope our
explorations and findings contribute valuable insights regarding the
accountability of textual-visual generative models.
- Abstract(参考訳): chatgptとgpt-4の成功はマルチモーダル対話システムに広く注目されている。
しかし、学術コミュニティには、テキスト・ビジュアルチャットタスクでVisual Language Models(VLM)のマルチモーダル生成能力を検証できるデータセットが欠けている。
本稿では,合成CLEVR-ATVCデータセット(620K)と手動によるFruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを構築する。
さらに、言語ベースのChatGPT会話のように、マルチモーダルシステムが人間の要求を拒否する(すなわち、説明責任を示す)ために、データセットに特定のルールを組み込んで監視信号とする。
これにより、トレーニングされたVLMは、視覚的およびテキスト的推論の後、なぜ人間の指示を抽出できないのかという言語説明とともに、イエスまたはノー回答を提供することができる。
本研究では,画像の自動エンコーダと自動回帰変換器をスクラッチからトレーニングするための2状態トレーニング手法を提案する。
第1の状態は、各画像を短いトークンに圧縮する離散変分オートエンコーダ(dVAE)を含み、その後、単一のデータストリームとしてテキストトークンと結合してデコーダベースのトランスフォーマーに送信し、第2状態において視覚的再生成とテキストフィードバックを生成する。
本研究では,画像品質,回答精度,不確実性や不完全なユーザクエリに直面する場合のモデル行動の観点から,実験結果を総合的に分析する。
本研究の成果は,テキスト・視覚生成モデルの説明可能性に関する貴重な知見に寄与することを期待している。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。