論文の概要: InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large
Multimodal and Language Models
- arxiv url: http://arxiv.org/abs/2312.13503v1
- Date: Thu, 21 Dec 2023 00:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 16:15:20.834843
- Title: InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large
Multimodal and Language Models
- Title(参考訳): infovisdial: 大きなマルチモーダルと言語モデルのブリッジによる情報付きビジュアル対話データセット
- Authors: Bingbing Wen, Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Bill Howe,
Lijuan Wang
- Abstract要約: 我々はInfoVisDialという名前のビジュアル対話データセットを構築し、各ラウンドで豊富な情報を提供する。
効果的なデータ収集のための鍵となるアイデアは、大規模マルチモーダルモデル(GITなど)と言語モデル(GPT-3など)をブリッジすることである。
- 参考スコア(独自算出の注目度): 123.1441379479263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we build a visual dialogue dataset, named InfoVisDial, which
provides rich informative answers in each round even with external knowledge
related to the visual content. Different from existing datasets where the
answer is compact and short, InfoVisDial contains long free-form answers with
rich information in each round of dialogue. For effective data collection, the
key idea is to bridge the large-scale multimodal model (e.g., GIT) and the
language models (e.g., GPT-3). GIT can describe the image content even with
scene text, while GPT-3 can generate informative dialogue based on the image
description and appropriate prompting techniques. With such automatic pipeline,
we can readily generate informative visual dialogue data at scale. Then, we ask
human annotators to rate the generated dialogues to filter the low-quality
conversations.Human analyses show that InfoVisDial covers informative and
diverse dialogue topics: $54.4\%$ of the dialogue rounds are related to image
scene texts, and $36.7\%$ require external knowledge. Each round's answer is
also long and open-ended: $87.3\%$ of answers are unique with an average length
of $8.9$, compared with $27.37\%$ and $2.9$ in VisDial. Last, we propose a
strong baseline by adapting the GIT model for the visual dialogue task and
fine-tune the model on InfoVisDial. Hopefully, our work can motivate more
effort on this direction.
- Abstract(参考訳): 本稿では,インフォビジアルと呼ばれる視覚的対話データセットを構築し,視覚的コンテンツに関する外部知識を伴っても,各ラウンドに豊富な情報的回答を提供する。
応答がコンパクトで短い既存のデータセットとは異なり、InfoVisDialは対話の各ラウンドで豊富な情報を持つ長い自由形式の回答を含んでいる。
効果的なデータ収集のための鍵となるアイデアは、大規模マルチモーダルモデル(GITなど)と言語モデル(GPT-3など)をブリッジすることである。
GITはシーンテキストでも画像内容を記述することができ、GPT-3は画像記述と適切なプロンプト技術に基づいて情報対話を生成することができる。
このような自動パイプラインにより,視覚的対話データを大規模に生成することができる。
Human Analysisは、InfoVisDialが情報的かつ多様な対話トピックをカバーしていることを示している: 対話ラウンドの54.4.%は画像シーンテキストに関連するもので、36.7.%は外部知識を必要とする。
各ラウンドの解答は長くオープンエンドで、解答の8.7.3.%は平均8.9ドルであり、VisDialでは27.37.%と29.9ドルである。
最後に、視覚対話タスクにGITモデルを適用し、InfoVisDial上でモデルを微調整することで、強力なベースラインを提案する。
願わくば、我々の仕事は、この方向へのさらなる努力を動機付けることができる。
関連論文リスト
- DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文 参考訳(メタデータ) (2023-05-27T10:06:03Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Dialog Inpainting: Turning Documents into Dialogs [12.131506050808207]
私たちは2つのデータセットを作成し、1900万の多様な情報検索ダイアログを作成しました。
WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか、あるいは優れていると判断する。
論文 参考訳(メタデータ) (2022-05-18T16:58:50Z) - DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded
Dialogue [30.930757279692163]
対話と映像の両方を理解するためには, 対話システムが必要となる。
既存のベンチマークには、対話システムを分析するのに十分なアノテーションがありません。
ビデオや対話でさまざまな推論能力をテストすることができる診断データセットを提示する。
論文 参考訳(メタデータ) (2021-01-01T03:20:22Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - History for Visual Dialog: Do we really need it? [55.642625058602924]
ダイアログ履歴を明示的にエンコードするコアテンションモデルは、そうでないモデルよりも優れていることを示す。
また、クラウドソーシングデータセット収集手順の欠点も明らかにした。
論文 参考訳(メタデータ) (2020-05-08T14:58:09Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。