論文の概要: Thinking with Images via Self-Calling Agent
- arxiv url: http://arxiv.org/abs/2512.08511v1
- Date: Tue, 09 Dec 2025 11:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.942952
- Title: Thinking with Images via Self-Calling Agent
- Title(参考訳): セルフカリングエージェントによるイメージ思考
- Authors: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye,
- Abstract要約: Self-Calling Chain-of-Thought (sCoT)は、iMCoTをセルフコールで言語のみのCoTとして再構成する新しい視覚的推論パラダイムである。
HR-Bench 4Kの実験では、sCoTは全体的な推論性能を最大1.9%改善し、sim 75%のGPU時間を削減した。
- 参考スコア(独自算出の注目度): 43.48244527974193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to $1.9\%$ with $\sim 75\%$ fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.
- Abstract(参考訳): 思考と想像のパラダイムは、視覚情報を動的要素としてCoT(Chain-of-Thought)に統合することで、目覚ましい視覚的推論能力を示した。
しかし, 改良学習によるインターリーブ型マルチモーダルCoT (iMCoT) の最適化は, 質の低い推論データに依存するため, 依然として困難である。
本研究では,iMCoTを自己呼び出し型言語のみのCoTとして再構成する新しい視覚推論パラダイムであるSelf-Calling Chain-of-Thought(sCoT)を提案する。
具体的には、メインエージェントは、複雑な視覚的推論タスクをアトミックサブタスクに分解し、仮想レプリカ、すなわちパラメータ共有サブエージェントを起動して、それらを独立したコンテキストで解決する。
sCoTは、モダリティ間の明示的なインターリーブを必要としないため、相当なトレーニング効率と効率を享受しています。
sCoTは、グループ相対的なポリシー最適化を使用して、効果的な推論行動を強化し、最適化を強化する。
HR-Bench 4Kの実験によると、sCoTは、強力なベースラインアプローチに比べて、GPU時間が少ないため、全体的な推論性能を最大1.9\%改善している。
コードはhttps://github.com/YWenxi/think-with-images-through-self-calling.comで公開されている。
関連論文リスト
- ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better [59.29940512530982]
推論プロセスに視覚的ヒントを動的に統合するフレームワークChainVを提案する。
提案手法は,特に算数集約ベンチマークにおいて,推論精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-21T10:11:17Z) - Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding [23.138205646078536]
CoT(Chain-of-Thought)プロンプトは、最近、様々なNLPおよびコンピュータビジョンタスクで大きな可能性を示している。
強化学習(RL)に基づく微調整CoT推論は,視覚グラウンディングタスクの性能をパラドックス的に劣化させる可能性がある。
我々は,CoT長と一般化されたインターセクションを用いた新たなトレーニング戦略であるCuRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T21:22:50Z) - Improving Chain-of-Thought Efficiency for Autoregressive Image Generation [55.57836819892392]
画像生成のための軽量な最適化フレームワークであるShortCoTIを紹介する。
ShortCoTIは、各タスクに対する推定困難度に応じてスケールする適応関数で、より簡潔なプロンプトを報酬する。
提案手法は冗長な説明と反復的な洗練を排除し,簡潔かつ意味的にリッチな推論プロンプトを生成する。
論文 参考訳(メタデータ) (2025-10-07T05:40:43Z) - Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision [30.155319213322013]
大規模言語モデル(LLM)を強化するために,チェーン・オブ・ソート(CoT)推論が広く採用されている。
We propose Uni-CoT, a Unified Chain-of-Thought framework that allow coherent and grounded multimodal reasoning。
論文 参考訳(メタデータ) (2025-08-07T17:45:17Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning [45.517215214938844]
チェーン・オブ・シークレット技術は、マルチモーダルタスクにおいてよく受け入れられている。
マルチモーダル表現学習におけるソフトプロンプトチューニングのためのAgoT(Aggregation-Graph-of-Thought)機構を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:39:44Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。