論文の概要: TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
- arxiv url: http://arxiv.org/abs/2511.01833v1
- Date: Mon, 03 Nov 2025 18:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.373539
- Title: TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
- Title(参考訳): TIR-Bench: エージェント思考と画像推論のための総合ベンチマーク
- Authors: Ming Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Wei Chen, Konstantinos Psounis, Kaipeng Zhang,
- Abstract要約: OpenAI o3は問題解決のためにイメージを変換するツールを作成、運用することができる。
ビジュアル検索のテストは、ローカライズやトリミングといった基本的な操作のみであり、より複雑で動的で、ツールに依存した推論に関する洞察はほとんど提供されない。
エージェント思考とイメージを13種類のタスクで評価するための総合的なベンチマークである textbfTIR-Bench を紹介する。
- 参考スコア(独自算出の注目度): 29.701283242087232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The frontier of visual reasoning is shifting toward models like OpenAI o3, which can intelligently create and operate tools to transform images for problem-solving, also known as thinking-\textit{with}-images in chain-of-thought. Yet existing benchmarks fail to fully capture this advanced capability. Even Visual Search, the most common benchmark for current thinking-\textit{with}-images methods, tests only basic operations such as localization and cropping, offering little insight into more complex, dynamic, and tool-dependent reasoning. We introduce \textbf{TIR-Bench}, a comprehensive benchmark for evaluating agentic thinking-with-images across 13 diverse tasks, each requiring novel tool use for image processing and manipulation in chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from leading open-sourced and proprietary models to those with explicit tool-use augmentation. Results show that TIR-Bench is universally challenging, and strong performance requires genuine thinking-with-images capabilities. Finally, we present a pilot study comparing direct versus agentic fine-tuning.
- Abstract(参考訳): 視覚的推論のフロンティアは、OpenAI o3のようなモデルにシフトしている。このモデルでは、問題解決のための画像変換ツールをインテリジェントに作成および運用することが可能で、思考-\textit{with}-images in chain-of-thinkt(思考-\textit{with}-images)として知られている。
しかし、既存のベンチマークでは、この高度な能力をフルに捉えられていない。
現在のシンキング-\textit{with}-imagesメソッドの最も一般的なベンチマークであるVisual Searchでさえ、ローカライズやトリミングといった基本的な操作のみをテストし、より複雑で動的でツールに依存した推論に関する洞察をほとんど提供しない。
我々は,13のタスクにまたがってエージェント思考とイメージを総合的に評価するベンチマークである‘textbf{TIR-Bench} を紹介した。
オープンソースおよびプロプライエタリモデルから明示的なツール使用拡大モデルまで,22のマルチモーダル大言語モデル(MLLM)を評価した。
その結果、TIR-Benchは普遍的に困難であり、強力な性能には真の思考とイメージの能力が必要であることが示された。
最後に, 直接的およびエージェント的微調整を比較検討した。
関連論文リスト
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - GenIR: Generative Visual Feedback for Mental Image Retrieval [8.753622774569774]
心的イメージ検索(MIR)の課題について検討する。
MIRは、ユーザーがイメージ検索エンジンとのマルチラウンドインタラクションを通じて、精神的に想定されたイメージの検索を洗練する現実的で過度に探索された環境をターゲットにしている。
本稿では,拡散に基づく画像生成を活用し,各ラウンドにおけるAIシステムの理解を明確化するための生成多ラウンド検索パラダイムであるGenIRを提案する。
論文 参考訳(メタデータ) (2025-06-06T16:28:03Z) - Visual Agentic Reinforcement Fine-Tuning [73.37007472426299]
この研究は、大規模視覚言語モデル(LVLM)における柔軟な適応推論能力を実現するための視覚エージェント強化細調整(Visual-ARFT)の有効性を強調した。
Visual-ARFTによって、オープンソースのLVLMは、リアルタイム情報更新のためのWebサイトをブラウズし、コードを書き、トリミング、回転、その他の画像処理技術を通じて入力画像を操作および解析することが可能になる。
実験の結果,Visual-ARFT は MAT-Coding で +18.6% F1 / +13.0% EM ,MAT-Search で +10.3% F1 / +8.7% EM で,ベースラインを+18.6% F1 / +13.0% EM で上回ることがわかった。
論文 参考訳(メタデータ) (2025-05-20T11:59:25Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。