論文の概要: MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation
- arxiv url: http://arxiv.org/abs/2502.11903v1
- Date: Mon, 17 Feb 2025 15:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:14.909717
- Title: MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation
- Title(参考訳): MMRC:実世界会話における多モーダル大言語モデル理解のための大規模ベンチマーク
- Authors: Haochen Xue, Feilong Tang, Ming Hu, Yexin Liu, Qidong Huang, Yulong Li, Chengzhi Liu, Zhongxing Xu, Chong Zhang, Chun-Mei Feng, Yutong Xie, Imran Razzak, Zongyuan Ge, Jionglong Su, Junjun He, Yu Qiao,
- Abstract要約: 本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。
MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。
そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
- 参考スコア(独自算出の注目度): 52.35744453954844
- License:
- Abstract: Recent multimodal large language models (MLLMs) have demonstrated significant potential in open-ended conversation, generating more accurate and personalized responses. However, their abilities to memorize, recall, and reason in sustained interactions within real-world scenarios remain underexplored. This paper introduces MMRC, a Multi-Modal Real-world Conversation benchmark for evaluating six core open-ended abilities of MLLMs: information extraction, multi-turn reasoning, information update, image management, memory recall, and answer refusal. With data collected from real-world scenarios, MMRC comprises 5,120 conversations and 28,720 corresponding manually labeled questions, posing a significant challenge to existing MLLMs. Evaluations on 20 MLLMs in MMRC indicate an accuracy drop during open-ended interactions. We identify four common failure patterns: long-term memory degradation, inadequacies in updating factual knowledge, accumulated assumption of error propagation, and reluctance to say no. To mitigate these issues, we propose a simple yet effective NOTE-TAKING strategy, which can record key information from the conversation and remind the model during its responses, enhancing conversational capabilities. Experiments across six MLLMs demonstrate significant performance improvements.
- Abstract(参考訳): 近年のマルチモーダル・大規模言語モデル(MLLM)は,より正確かつパーソナライズされた応答を生成するために,オープンエンド会話において大きな可能性を示している。
しかし、現実のシナリオ内での持続的な相互作用を記憶、思い出し、理屈を覚える能力は、まだ過小評価されていない。
本稿では,Multi-Modal Real-world Conversationベンチマークとして,情報抽出,マルチターン推論,情報更新,画像管理,メモリリコール,回答拒否の6つのコアオープンエンド能力を評価する。
実世界のシナリオから収集されたデータにより、MMRCは5,120の会話と28,720の対応する手動ラベル付き質問で構成されており、既存のMLLMにとって大きな課題となっている。
MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。
我々は4つの一般的な障害パターンを識別する: 長期記憶の劣化、事実知識の更新の不確実性、エラー伝播の仮定の蓄積、そしてノーと言うこと。
これらの問題を緩和するために,会話から重要な情報を記録し,その応答中にモデルをリマインドし,会話能力を向上させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
6つのMLLMでの実験では、大幅な性能向上が示されている。
関連論文リスト
- MARCO: Multi-Agent Real-time Chat Orchestration [6.7741570640544415]
LLMを用いたタスク自動化のためのマルチエージェントリアルタイムチャットオーケストレーションフレームワークであるMARCOを提案する。
MARCOは複雑なマルチステップタスク実行にLLMを使用する上で重要な課題に対処する。
我々は、デジタルレストランサービスプラットフォームの会話におけるタスク実行における、94.48%と92.74%の精度で、MARCOの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-29T06:42:27Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms [25.73585435351771]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - Temporal Insight Enhancement: Mitigating Temporal Hallucination in
Multimodal Large Language Models [20.33971942003996]
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。
オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。
イベント発生の特定のタイムスタンプを予測するために、CLIPやBLIP2といったモデルを採用しています。
論文 参考訳(メタデータ) (2024-01-18T10:18:48Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。