論文の概要: MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models
- arxiv url: http://arxiv.org/abs/2510.16641v1
- Date: Sat, 18 Oct 2025 21:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.076754
- Title: MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models
- Title(参考訳): MultiVerse: 大規模ビジョンと言語モデル評価のためのマルチスレッド対話ベンチマーク
- Authors: Young-Jun Lee, Byung-Kwan Lee, Jianshu Zhang, Yechan Hwang, Byungsoo Ko, Han-Gyu Kim, Dongyu Yao, Xuankun Rong, Eojin Joo, Seung-Ho Han, Bowon Ko, Ho-Jin Choi,
- Abstract要約: MultiVerseは、647の対話を特徴とする新しいマルチターン会話ベンチマークである。
484のタスクと484のインタラクション目標を持つMultiVerseは、事実知識や知覚から、数学やコーディングといった高度な推論タスクまで、幅広いトピックをカバーしている。
我々は、MultiVerse上で18のビジョン・アンド・ランゲージモデル(VLM)を評価し、最強モデルでさえ複雑なマルチターン会話において50%の成功率しか達成していないことを明らかにした。
- 参考スコア(独自算出の注目度): 25.072791108956682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Models (VLMs) have shown impressive capabilities on single-turn benchmarks, yet real-world applications often demand more intricate multi-turn dialogues. Existing multi-turn datasets (e.g, MMDU, ConvBench) only partially capture the breadth and depth of conversational scenarios encountered by users. In this work, we introduce MultiVerse, a novel multi-turn conversation benchmark featuring 647 dialogues - each averaging four turns - derived from a diverse set of 12 popular VLM evaluation benchmarks. With 484 tasks and 484 interaction goals, MultiVerse covers a wide range of topics, from factual knowledge and perception to advanced reasoning tasks such as mathematics and coding. To facilitate robust assessment, we propose a checklist-based evaluation method that leverages GPT-4o as the automated evaluator, measuring performance across 37 key aspects, including perceptual accuracy, linguistic clarity, and factual correctness. We evaluate 18 VLMs on MultiVerse, revealing that even the strongest models (e.g., GPT-4o) achieve only a 50% success rate in complex multi-turn conversations, highlighting the dataset's challenging nature. Notably, we find that providing full dialogue context significantly enhances performance for smaller or weaker models, emphasizing the importance of in-context learning. We believe MultiVerse is a landscape of evaluating multi-turn interaction abilities for VLMs.
- Abstract(参考訳): VLM(Vision-and-Language Models)はシングルターンベンチマークで印象的な機能を示しているが、現実のアプリケーションはより複雑なマルチターン対話を必要とすることが多い。
既存のマルチターンデータセット(例えばMMDU、ConvBench)は、ユーザが遭遇する会話シナリオの幅と深さを部分的に捉えているだけである。
本稿では,12種類のVLM評価ベンチマークから得られた647の対話(平均4回)を特徴とする,新しいマルチターン会話ベンチマークであるMultiVerseを紹介する。
484のタスクと484のインタラクション目標を持つMultiVerseは、事実知識や知覚から、数学やコーディングといった高度な推論タスクまで、幅広いトピックをカバーしている。
頑健な評価を容易にするために,GPT-4oを自動評価器として活用したチェックリストに基づく評価手法を提案する。
我々は、MultiVerse上で18のVLMを評価し、最強モデル(例えば、GPT-4o)でさえ、複雑なマルチターン会話において50%の成功率しか達成できず、データセットの難易度を強調した。
特に、完全な対話コンテキストを提供することによって、より小さいモデルや弱いモデルの性能が著しく向上し、文脈内学習の重要性が強調される。
我々は、MultiVerseはVLMのマルチターンインタラクション能力を評価するランドスケープであると信じている。
関連論文リスト
- ContextualLVLM-Agent: A Holistic Framework for Multi-Turn Visually-Grounded Dialogue and Complex Instruction Following [0.2999888908665658]
MMDR-Bench(Multi-Modal Dialogue Reasoning Benchmark)は,300の複雑なマルチターン対話シナリオからなる新しいデータセットである。
また,既存のLVLMを高度な推論と命令追従機能で拡張する包括的フレームワークであるCoLVLM Agent(Contextual LVLM Agent)を提案する。
MMDR-Benchを用いた実験により,CoLVLM Agentは高い性能を示し,平均評価スコアは4.03。
論文 参考訳(メタデータ) (2025-08-21T02:09:02Z) - Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D [97.08549913899247]
Contra4は、画像、オーディオ、ビデオ、および3Dの4つのモードにまたがる、対照的な相互モーダル推論のためのデータセットである。
それぞれの例は、複数の候補モダリティのインスタンスと並んで自然言語の質問を示し、モデルがプロンプトと意味的に一致するものを選択する必要がある。
コントラ4は、人間の注釈付きキャプションとモデルの混在するラウンドトリップ一貫性フィルタを組み合わせることで、高品質な監視を確実にし、174kのトレーニング例と2.3kのサンプルを手作業で検証する。
論文 参考訳(メタデータ) (2025-06-02T03:12:13Z) - Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models [27.18427414844769]
M4Uは多分野多言語マルチモーダル理解と推論の能力を評価するための新しいベンチマークである。
M4Uには、科学、工学、医療の分野で6つの言語で64の分野をカバーする10kのサンプルが含まれている。
M4Uを用いて,LMM(Large Multimodal Model)とLLM(Large Language Model)を外部ツールで広範囲に評価する。
論文 参考訳(メタデータ) (2024-05-24T15:25:28Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。