論文の概要: ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations
- arxiv url: http://arxiv.org/abs/2505.14404v1
- Date: Tue, 20 May 2025 14:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.345502
- Title: ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations
- Title(参考訳): ViC-Bench: フリースタイルの中間状態表現を持つMLLMにおけるビジュアルインターリーブド・チェーン・オブ・ソート能力のベンチマーク
- Authors: Xuecheng Wu, Jiaxing Liu, Danlei Huang, Xiaoyu Li, Yifan Wang, Chen Chen, Liya Ma, Xuezhi Cao, Junxiao Xue,
- Abstract要約: Visual-Interleaved Chain-of-Thought (VI-CoT)により、MLLMはステップワイド中間視覚状態(IVS)に基づいた理解と決定を継続的に更新できる。
本稿では,迷路ナビゲーション,ジグソーパズル,エンボディドロングホライゾン計画,複雑カウントという4つのタスクからなる,ViC-Benchと呼ばれる特殊なベンチマークを紹介する。
我々は18種類の高度MLLMの評価を広範囲に行い、そのVI-CoT能力に関する重要な知見を明らかにした。
- 参考スコア(独自算出の注目度): 17.658328733641014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Interleaved Chain-of-Thought (VI-CoT) enables MLLMs to continually update their understanding and decisions based on step-wise intermediate visual states (IVS), much like a human would, which demonstrates impressive success in various tasks, thereby leading to emerged advancements in related benchmarks. Despite promising progress, current benchmarks provide models with relatively fixed IVS, rather than free-style IVS, whch might forcibly distort the original thinking trajectories, failing to evaluate their intrinsic reasoning capabilities. More importantly, existing benchmarks neglect to systematically explore the impact factors that IVS would impart to untamed reasoning performance. To tackle above gaps, we introduce a specialized benchmark termed ViC-Bench, consisting of four representive tasks: maze navigation, jigsaw puzzle, embodied long-horizon planning, and complex counting, where each task has dedicated free-style IVS generation pipeline supporting function calls. To systematically examine VI-CoT capability, we propose a thorough evaluation suite incorporating a progressive three-stage strategy with targeted new metrics. Besides, we establish Incremental Prompting Information Injection (IPII) strategy to ablatively explore the prompting factors for VI-CoT. We extensively conduct evaluations for 18 advanced MLLMs, revealing key insights into their VI-CoT capability. Our proposed benchmark is publicly open at Huggingface.
- Abstract(参考訳): Visual-Interleaved Chain-of-Thought (VI-CoT)は、MLLMがステップワイド中間視覚状態(IVS)に基づいて理解と決定を継続的に更新することを可能にする。
有望な進歩にもかかわらず、現在のベンチマークでは、フリースタイルのISVではなく、比較的固定されたISVのモデルを提供しており、ハッチは本来の思考軌道を強制的に歪め、本質的な推論能力の評価に失敗する可能性がある。
さらに重要なのは、既存のベンチマークでは、IDSが未修正の推論性能に課す影響要因を体系的に調査することを無視していることだ。
上記のギャップに対処するために,迷路ナビゲーション,ジグソーパズル,長期計画の具体化,複雑なカウントという,関数呼び出しをサポートするフリースタイルのISV生成パイプラインを持つ4つのタスクからなる,ViC-Benchという特殊なベンチマークを導入する。
そこで我々は,VI-CoTの能力を体系的に検証するために,段階的な3段階戦略と新たな指標を取り入れた徹底的な評価スイートを提案する。
さらに,インクリメンタル・プロンプト・インフォメーション(IPII)戦略を確立し,VI-CoTの促進要因を解明する。
我々は18種類の高度MLLMの評価を広範囲に行い、そのVI-CoT能力に関する重要な知見を明らかにした。
提案されたベンチマークはHuggingfaceで公開されています。
関連論文リスト
- Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。
本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。
エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。