Fugu-MT 論文翻訳(概要): EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset

論文の概要: EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset

arxiv url: http://arxiv.org/abs/2310.10967v1
Date: Tue, 17 Oct 2023 03:28:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 17:42:27.464334
Title: EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset
Title（参考訳）: EXMODD: 説明的マルチモーダルオープンドメイン対話データセット
Authors: Hang Yin, Pinren Lu, Ziang Li, Bin Sun, Kan Li
Abstract要約: 本稿では,データ収集における人的・資源的負担を軽減するため,MDCF(Multimodal Data Construction Framework)を提案する。 MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供する。実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
参考スコア（独自算出の注目度）: 20.445453185198186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The need for high-quality data has been a key issue hindering the research of dialogue tasks. Recent studies try to build datasets through manual, web crawling, and large pre-trained models. However, man-made data is expensive and data collected from the internet often includes generic responses, meaningless statements, and toxic dialogues. Automatic data generation through large models is a cost-effective method, but for open-domain multimodal dialogue tasks, there are still three drawbacks: 1) There is currently no open-source large model that can accept multimodal input; 2) The content generated by the model lacks interpretability; 3) The generated data is usually difficult to quality control and require extensive resource to collect. To alleviate the significant human and resource expenditure in data collection, we propose a Multimodal Data Construction Framework (MDCF). MDCF designs proper prompts to spur the large-scale pre-trained language model to generate well-formed and satisfactory content. Additionally, MDCF also automatically provides explanation for a given image and its corresponding dialogue, which can provide a certain degree of interpretability and facilitate manual follow-up quality inspection. Based on this, we release an Explanatory Multimodal Open-Domain dialogue dataset (EXMODD). Experiments indicate a positive correlation between the model's ability to generate accurate understandings and high-quality responses. Our code and data can be found at https://github.com/poplpr/EXMODD.
Abstract（参考訳）: 高品質なデータの必要性は、対話作業の研究を妨げる重要な問題である。最近の研究では、手作業、webクローリング、大規模事前学習モデルによるデータセットの構築が試みられている。しかし、人為的なデータは高価であり、インターネットから収集されるデータは、一般的な応答、意味のないステートメント、有害な対話を含むことが多い。大規模モデルによる自動データ生成はコスト効率のよい方法だが,オープンドメインのマルチモーダル対話タスクでは,まだ3つの欠点がある。 1) マルチモーダル入力を受理できるオープンソースの大規模モデルは現在存在しない。 2) モデルによって生成された内容は解釈可能性に欠ける。 3) 生成したデータは品質管理が難しく,収集に必要なリソースが豊富である。データ収集における人的・資源的支出の軽減のために,マルチモーダルデータ構築フレームワーク(mdcf)を提案する。 MDCFは、大規模な事前学習型言語モデルに刺激を与える適切なプロンプトを設計する。さらに、MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供し、手動の追従品質検査を容易にする。そこで我々は,Explainatory Multimodal Open-Domain dialogue dataset (EXMODD) をリリースする。実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。私たちのコードとデータはhttps://github.com/poplpr/EXMODD.orgで参照できます。

関連論文リスト

Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching [24.350821306196877]
MASTERは、認知レベルが異なる複数のエージェント間の相互作用を通じて、元のデータを豊かにする新しいデータ拡張手法である。私たちは、Orca-Math-200k、ProcQA、OpenHermes2.5といった既存のデータセットから強化された微調整データセットであるBOOST-QAを構築します。実験により、BOOST-QAで微調整されたモデルは、複数のベンチマークで優れた性能を示し、強力なマルチタスクの一般化を示す。
論文参考訳（メタデータ） (2025-06-03T09:41:35Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags [28.368960723666458]
MLLM(Multimodal Large Language Models)は、視覚的命令に対して正確かつ詳細な応答を提供するために必要な場合、重要な問題に対処する。これらの問題を緩和する効果を示すが、大量の新しいデータを収集するコストがかかる。本稿では、リッチなオブジェクト認識情報を含む検索拡張タグトークンを用いて、マッピングを強化することを提案する。
論文参考訳（メタデータ） (2024-06-16T08:20:12Z)
Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文参考訳（メタデータ） (2024-02-26T01:17:50Z)
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文参考訳（メタデータ） (2023-08-21T14:40:48Z)
Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文参考訳（メタデータ） (2023-07-06T08:02:45Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
q2d: Turning Questions into Dialogs to Teach Models How to Search [11.421839177607147]
質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
論文参考訳（メタデータ） (2023-04-27T16:39:15Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)
A Model-Agnostic Data Manipulation Method for Persona-based Dialogue Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。このタスクの各データサンプルは、従来の対話データよりも複雑である。本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文参考訳（メタデータ） (2022-04-21T03:49:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。