論文の概要: When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2511.02779v1
- Date: Tue, 04 Nov 2025 18:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.136387
- Title: When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
- Title(参考訳): ビジュアル化が推論の最初のステップであるMIRA - Visual Chain-of-Thoughtのベンチマーク
- Authors: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye,
- Abstract要約: MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
- 参考スコア(独自算出の注目度): 118.71264263478083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose MIRA, a new benchmark designed to evaluate models in scenarios where generating intermediate visual images is essential for successful reasoning. Unlike traditional CoT methods that rely solely on text, tasks in MIRA require models to generate and utilize intermediate images - such as sketches, structural diagrams, or path drawings - to guide their reasoning process. This setup closely mirrors how humans solve complex problems through "drawing to think". To solve this, MIRA focuses on tasks that are intrinsically challenging and involve complex structures, spatial relationships, or reasoning steps that are difficult to express through language alone. To ensure that our evaluation data is of high-quality, we include 546 multimodal problems, annotated with intermediate visual images and final answers. We also propose a unified evaluation protocol for MIRA that spans three levels of evaluation input: direct input with image and question only, text-only CoT input with image and thinking prompts, and Visual-CoT input with both annotated image clues and textual thinking prompts. To probe the upper bound of model capacity on our benchmark, we also report pass@k and majority voting accuracies under different k settings. Experimental results show that existing multimodal large language models, including strongest private models as well as strong open-weight models, perform poorly when relying solely on textual prompts. However, when intermediate visual cues are provided, model performance improves consistently, yielding an average relative gain of 33.7% across all models and tasks. We also probe the upper bound by expanding the search space and designing textual prompts aligned with Visual-CoT, but both yield only limited improvements compared to our Visual-CoT setting. These results underscore the critical role of imagined visual information in enabling successful reasoning on MIRA.
- Abstract(参考訳): MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
テキストのみに依存した従来のCoTメソッドとは異なり、MIRAのタスクは、推論プロセスを導くために、スケッチ、構造図、パス描画などの中間画像を生成し、利用するモデルを必要とする。
この設定は、人間が「思考を引き出す」ことで複雑な問題を解決する方法をよく反映している。
この問題を解決するために、MIRAは本質的に困難であり、複雑な構造、空間的関係、言語だけでは表現が難しい推論ステップを含むタスクに焦点を当てている。
評価データが高品質であることを保証するため,中間画像と最終回答を付加した546のマルチモーダル問題を含む。
また、画像と質問のみによる直接入力、画像と思考のプロンプトによるテキストのみのCoT入力、注釈付き画像ヒントとテキストによる思考のプロンプトによるVisual-CoT入力の3つのレベルにまたがるMIRAの統一評価プロトコルを提案する。
ベンチマークでモデルキャパシティの上限を調査するために、パス@kと多数決の精度を異なるk設定で報告する。
実験結果から,最強のプライベートモデルや強大なオープンウェイトモデルを含む既存のマルチモーダルな大規模言語モデルでは,テキストプロンプトのみに依存する場合,性能が低下することが示唆された。
しかし、中間的な視覚的手がかりが提供されると、モデルの性能は一貫して改善され、全てのモデルとタスクの平均相対的な利得は33.7%となる。
また、検索スペースを拡大し、Visual-CoTと整合したテキストプロンプトを設計することで、上界を探索するが、どちらもVisual-CoT設定に比べて限られた改善しか得られない。
これらの結果は、MIRAの推論を成功させる上で、想像的な視覚情報の重要性を浮き彫りにしている。
関連論文リスト
- TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning [29.701283242087232]
OpenAI o3は問題解決のためにイメージを変換するツールを作成、運用することができる。
ビジュアル検索のテストは、ローカライズやトリミングといった基本的な操作のみであり、より複雑で動的で、ツールに依存した推論に関する洞察はほとんど提供されない。
エージェント思考とイメージを13種類のタスクで評価するための総合的なベンチマークである textbfTIR-Bench を紹介する。
論文 参考訳(メタデータ) (2025-11-03T18:40:17Z) - ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
これらのモデルは曖昧さやユーザ命令を必要とするタスクには使用できない。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文 参考訳(メタデータ) (2025-03-01T03:29:02Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。