論文の概要: MMCR: Advancing Visual Language Model in Multimodal Multi-Turn Contextual Reasoning
- arxiv url: http://arxiv.org/abs/2503.18533v1
- Date: Mon, 24 Mar 2025 10:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:30:55.979804
- Title: MMCR: Advancing Visual Language Model in Multimodal Multi-Turn Contextual Reasoning
- Title(参考訳): MMCR:マルチモーダルマルチターンコンテキスト推論における視覚言語モデルの改善
- Authors: Dawei Yan, Yang Li, Qing-Guo Chen, Weihua Luo, Peng Wang, Haokui Zhang, Chunhua Shen,
- Abstract要約: マルチモーダルマルチターンコンテキスト推論データセットは、310Kコンテキスト対話を備えた最大マルチモーダルマルチターンインストラクションチューニングデータセットである。
MMCR-310kで微調整されたモデルは、MMCR-Benchの文脈精度が5.2%向上する。
- 参考スコア(独自算出の注目度): 59.01443478716538
- License:
- Abstract: Compared to single-turn dialogue, multi-turn dialogue involving multiple images better aligns with the needs of real-world human-AI interactions. Additionally, as training data, it provides richer contextual reasoning information, thereby guiding the model to achieve better performance. However, existing vision-language models (VLMs) primarily rely on single-turn dialogue training and evaluation benchmarks. In this paper, following the characteristics of human dialogue, such as focused topics and concise, clear content, we present MMCR (Multimodal Multi-turn Contextual Reasoning), a novel dataset comprising: (1) MMCR-310k -- the largest multi-image multi-turn instruction tuning dataset with 310K contextual dialogues, each covering 1-4 images and 4 or 8 dialogue turns; and (2) MMCR-Bench -- a diagnostic benchmark featuring dialogues, spanning 8 domains (Humanities, Natural, Science, Education, etc.) and 40 sub-topics. Extensive evaluations demonstrate that models fine-tuned with MMCR-310k achieve 5.2\% higher contextual accuracy on MMCR-Bench, while showing consistent improvements on existing benchmarks (+1.1\% on AI2D, +1.2\% on MMMU and MMVet). MMCR and prompt engineering will be released publicly.
- Abstract(参考訳): シングルターン対話と比較して、複数の画像を含むマルチターン対話は、現実世界の人間とAIの対話の必要性とよりよく一致している。
さらに、トレーニングデータとして、よりリッチなコンテキスト推論情報を提供し、それによって、より良いパフォーマンスを達成するためのモデルを導く。
しかしながら、既存の視覚言語モデル(VLM)は、主にシングルターン対話訓練と評価ベンチマークに依存している。
本稿では,焦点を絞った話題や簡潔な内容,明快な内容などの人間の対話の特徴に従い,(1)MMCR-310k,(1)MMCR-310k,(2)MMCR-Bench,(2)MMCR-Bench,(Humanities, Natural, Science, Educationなど)8つの領域と40のサブトピックからなる,310Kのコンテクスト・コンテクスト・インストラクション・チューニングデータセットを提案する。
MMCR-310kで微調整されたモデルは、MMCR-Benchで5.2\%高い文脈精度を実現し、既存のベンチマークで一貫した改善(AI2Dで+1.1\%、MMMUとMMVetで+1.2\%)を示した。
MMCRとプロンプトエンジニアリングは一般公開される予定だ。
関連論文リスト
- MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。
その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset [18.449076451976236]
本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。
我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。
このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
論文 参考訳(メタデータ) (2022-12-08T07:29:07Z) - MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal
Open-domain Conversation [68.53133207668856]
マルチモーダル会話をより容易にするためのMDDialogデータセットを導入する。
MMDialogは1億800万の現実世界の対話と4,184のトピックにわたる1億3300万のユニークな画像からなるキュレートされたセットで構成されている。
このデータセットを用いて対話システムを構築するために,2つの応答生成タスクを提案し,標準化する。
論文 参考訳(メタデータ) (2022-11-10T17:37:04Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。