論文の概要: EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset
- arxiv url: http://arxiv.org/abs/2310.10967v1
- Date: Tue, 17 Oct 2023 03:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:42:27.464334
- Title: EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset
- Title(参考訳): EXMODD: 説明的マルチモーダルオープンドメイン対話データセット
- Authors: Hang Yin, Pinren Lu, Ziang Li, Bin Sun, Kan Li
- Abstract要約: 本稿では,データ収集における人的・資源的負担を軽減するため,MDCF(Multimodal Data Construction Framework)を提案する。
MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供する。
実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
- 参考スコア(独自算出の注目度): 20.445453185198186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The need for high-quality data has been a key issue hindering the research of
dialogue tasks. Recent studies try to build datasets through manual, web
crawling, and large pre-trained models. However, man-made data is expensive and
data collected from the internet often includes generic responses, meaningless
statements, and toxic dialogues. Automatic data generation through large models
is a cost-effective method, but for open-domain multimodal dialogue tasks,
there are still three drawbacks: 1) There is currently no open-source large
model that can accept multimodal input; 2) The content generated by the model
lacks interpretability; 3) The generated data is usually difficult to quality
control and require extensive resource to collect. To alleviate the significant
human and resource expenditure in data collection, we propose a Multimodal Data
Construction Framework (MDCF). MDCF designs proper prompts to spur the
large-scale pre-trained language model to generate well-formed and satisfactory
content. Additionally, MDCF also automatically provides explanation for a given
image and its corresponding dialogue, which can provide a certain degree of
interpretability and facilitate manual follow-up quality inspection. Based on
this, we release an Explanatory Multimodal Open-Domain dialogue dataset
(EXMODD). Experiments indicate a positive correlation between the model's
ability to generate accurate understandings and high-quality responses. Our
code and data can be found at https://github.com/poplpr/EXMODD.
- Abstract(参考訳): 高品質なデータの必要性は、対話作業の研究を妨げる重要な問題である。
最近の研究では、手作業、webクローリング、大規模事前学習モデルによるデータセットの構築が試みられている。
しかし、人為的なデータは高価であり、インターネットから収集されるデータは、一般的な応答、意味のないステートメント、有害な対話を含むことが多い。
大規模モデルによる自動データ生成はコスト効率のよい方法だが,オープンドメインのマルチモーダル対話タスクでは,まだ3つの欠点がある。
1) マルチモーダル入力を受理できるオープンソースの大規模モデルは現在存在しない。
2) モデルによって生成された内容は解釈可能性に欠ける。
3) 生成したデータは品質管理が難しく,収集に必要なリソースが豊富である。
データ収集における人的・資源的支出の軽減のために,マルチモーダルデータ構築フレームワーク(mdcf)を提案する。
MDCFは、大規模な事前学習型言語モデルに刺激を与える適切なプロンプトを設計する。
さらに、MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供し、手動の追従品質検査を容易にする。
そこで我々は,Explainatory Multimodal Open-Domain dialogue dataset (EXMODD) をリリースする。
実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
私たちのコードとデータはhttps://github.com/poplpr/EXMODD.orgで参照できます。
関連論文リスト
- LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues [40.07063536167041]
仮想アシスタントは、トランスフォーマーベース大規模言語モデル(LLM)の進歩によって、対話能力の面で劇的な飛躍を遂げる可能性がある。
しかし、真にトランスフォーメーションされたタスク指向対話機能を実現するための大きなボトルネックは、高品質で言語学的に洗練されたデータの不足である。
LUCIDを使用して、100のインテントにまたがる4,277のマルチドメイン、マルチインテリジェントな会話のシードデータセットを生成し、その能力を実証しています。
論文 参考訳(メタデータ) (2024-03-01T11:33:53Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - q2d: Turning Questions into Dialogs to Teach Models How to Search [11.421839177607147]
質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-04-27T16:39:15Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。
我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文 参考訳(メタデータ) (2020-10-09T03:17:51Z) - Multi-Referenced Training for Dialogue Response Generation [36.24321477524634]
実世界の確率分布と単一参照データの確率分布とのギャップは,モデルが1対多の関係を効率的に学習することを妨げることを示す。
我々は、実世界の分布をよりよく近似するマルチ参照データを構築するために、強力な事前学習モデルから多様な擬似参照を生成する。
論文 参考訳(メタデータ) (2020-09-15T14:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。