論文の概要: Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation
- arxiv url: http://arxiv.org/abs/2303.05983v3
- Date: Mon, 19 Feb 2024 08:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 07:09:02.148642
- Title: Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation
- Title(参考訳): 画像再構成におけるヒューマンインストラクションの回避を学習する説明可能なテキスト・ビジュアル・チャット
- Authors: Zhiwei Zhang, Yuliang Liu
- Abstract要約: 合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
- 参考スコア(独自算出の注目度): 26.933683814025475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of ChatGPT and GPT-4 has drawn widespread attention to
multimodal dialogue systems. However, there is a lack of datasets in the
academic community that can effectively evaluate the multimodal generation
capabilities of Visual Language Models (VLMs) in textual-visual chat tasks. In
this paper, we address this gap by introducing two novel multimodal datasets:
the synthetic CLEVR-ATVC dataset (620K) and the manually pictured Fruit-ATVC
dataset (50K). These datasets incorporate both visual and text-based inputs and
outputs. Furthermore, to facilitate the accountability of multimodal systems in
rejecting human requests, similar to language-based ChatGPT conversations, we
introduce specific rules as supervisory signals within the datasets. This
allows the trained VLM to provide a yes or no answer after engaging in visual
and textual reasoning, accompanied by a language explanation to clarify the
reasons behind the inability to execute the given human instruction. Our
proposed method involves a two-stage training procedure, which includes
training the image auto-encoder and the auto-regressive transformer from
scratch. The first stage employs a discrete variational autoencoder (dVAE) to
compress each image into concise tokens, which are then combined with text
tokens into a single data stream. This stream is subsequently fed into the
decoder-based transformer to generate visual re-creations and textual feedback
in the second stage. We conduct comprehensive analyses of experimental results,
focusing on re-created image quality, answer accuracy, and the model's behavior
when faced with uncertainty and imperfect user queries. Through our
explorations and findings, we aim to contribute valuable insights into the
accountability of textual-visual generative models.
- Abstract(参考訳): chatgptとgpt-4の成功はマルチモーダル対話システムに広く注目されている。
しかし、テキスト・ビジュアルチャットタスクにおける視覚言語モデル(vlms)のマルチモーダル生成能力を効果的に評価できる、学術コミュニティのデータセットが欠如している。
本稿では,合成CLEVR-ATVCデータセット(620K)と手作業によるFruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを導入することで,このギャップに対処する。
これらのデータセットには、ビジュアルおよびテキストベースの入力と出力の両方が含まれている。
さらに、言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を促進するために、データセット内の監視信号として特定のルールを導入する。
これにより、訓練されたVLMは、与えられた人間の指示を実行することができない理由を明らかにするための言語説明を伴う、視覚的およびテキスト的推論に関わった後、イエスまたはノー回答を提供することができる。
提案手法は,画像自動エンコーダと自動回帰変換器をスクラッチからトレーニングする2段階の訓練手順を含む。
第1段階では、個々の画像を簡潔なトークンに圧縮するために離散変分オートエンコーダ(dVAE)を使用し、テキストトークンと組み合わせて単一のデータストリームを生成する。
このストリームはデコーダベースの変換器に入力され、第2段階で視覚的再生成とテキストフィードバックを生成する。
本研究では,画像品質,回答精度,不確実性と不完全なユーザクエリに直面する場合のモデル動作に着目し,実験結果を総合的に分析する。
調査と知見を通じて,テキスト・ビジュアル生成モデルの説明可能性に関する貴重な知見を提供することを目標としている。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。