Fugu-MT 論文翻訳(概要): CodeDance: A Dynamic Tool-integrated MLLM for Executable Visual Reasoning

論文の概要: CodeDance: A Dynamic Tool-integrated MLLM for Executable Visual Reasoning

arxiv url: http://arxiv.org/abs/2512.17312v1
Date: Fri, 19 Dec 2025 07:52:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-22 19:25:54.292491
Title: CodeDance: A Dynamic Tool-integrated MLLM for Executable Visual Reasoning
Title（参考訳）: CodeDance: 実行可能なビジュアル推論のための動的ツール統合MLLM
Authors: Qi Song, Honglin Li, Yingchen Yu, Haoyi Zhou, Lin Yang, Song Bai, Qi She, Zilong Huang, Yunqing Zhao,
Abstract要約: 視覚的推論のための一般的な解法として実行可能なコードを探索するCodeDanceを紹介する。 CodeDanceは、複数のツールを編成し、中間結果を計算し、ビジュアルアーティファクトを描画するコードを定義し、構成し、実行します。 CodeDanceは、スキーマ駆動とテキストのみのベースラインを一貫して上回るだけでなく、高度なクローズドモデルも上回ることを示す。
参考スコア（独自算出の注目度）: 47.30236915430168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent releases such as o3 highlight human-like "thinking with images" reasoning that combines structured tool use with stepwise verification, yet most open-source approaches still rely on text-only chains, rigid visual schemas, or single-step pipelines, limiting flexibility, interpretability, and transferability on complex tasks. We introduce CodeDance, which explores executable code as a general solver for visual reasoning. Unlike fixed-schema calls (e.g., only predicting bounding-box coordinates), CodeDance defines, composes, and executes code to orchestrate multiple tools, compute intermediate results, and render visual artifacts (e.g., boxes, lines, plots) that support transparent, self-checkable reasoning. To guide this process, we introduce a reward for balanced and adaptive tool-call, which balances exploration with efficiency and mitigates tool overuse. Interestingly, beyond the expected capabilities taught by atomic supervision, we empirically observe novel emergent behaviors during RL training: CodeDance demonstrates novel tool invocations, unseen compositions, and cross-task transfer. These behaviors arise without task-specific fine-tuning, suggesting a general and scalable mechanism of executable visual reasoning. Extensive experiments across reasoning benchmarks (e.g., visual search, math, chart QA) show that CodeDance not only consistently outperforms schema-driven and text-only baselines, but also surpasses advanced closed models such as GPT-4o and larger open-source models.
Abstract（参考訳）: o3のような最近のリリースでは、構造化ツールの使用とステップワイドな検証を組み合わせたヒューマンライクな"イメージによる思考"推論が強調されているが、ほとんどのオープンソースアプローチは、複雑なタスクの柔軟性、解釈可能性、転送可能性を制限する、テキストのみのチェーン、堅固なビジュアルスキーマ、シングルステップパイプラインに依存している。視覚的推論のための一般的な解法として実行可能なコードを探索するCodeDanceを紹介する。固定スキーマコール(例えば、バウンディングボックス座標の予測のみ)とは異なり、CodeDanceは複数のツールをオーケストレーションし、中間結果を計算し、透明で自己チェック可能な推論をサポートするビジュアルアーティファクト(例えば、ボックス、行、プロット)をレンダリングするコードを定義し、構成し、実行する。このプロセスの導出には、効率と探索のバランスを保ち、ツールの過剰使用を軽減し、バランスの取れたツールコールに対する報酬を導入する。 CodeDanceは、新しいツールの実行、目に見えない構成、クロスタスク転送を実証します。これらの振る舞いはタスク固有の微調整なしで発生し、実行可能な視覚的推論の汎用的でスケーラブルなメカニズムを示唆している。推論ベンチマーク(例えば、ビジュアル検索、数学、チャートQA)にわたる大規模な実験は、CodeDanceがスキーマ駆動とテキストのみのベースラインを一貫して上回るだけでなく、GPT-4oやより大きなオープンソースモデルといった高度なクローズドモデルを上回ることを示している。

関連論文リスト

ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。 ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-15T11:14:47Z)
ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents [16.06309106596998]
ToolTokはGUIエージェントのための多段階パスフィニングの新しいパラダイムである。我々は,人間のインタラクションの習慣に沿ったツールを考案し,学習可能なトークン埋め込みを用いて各ツールを表現する。トークン定義質問回答,純テキスト誘導ツールの選択,視覚的パスフィニングの3つのタスクからなる,難易度の高いカリキュラムを構築した。
論文参考訳（メタデータ） (2026-01-30T08:38:05Z)
MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning [55.221850286246]
我々は、インターリーブド思考とマルチモーダル・チェーン・オブ・シークレット(CoT)推論を備えたツール統合推論エージェントであるMindWatcherを紹介する。 MindWatcherは、さまざまなツールの呼び出しと使用の調整を自律的に行うことができる。車、動物、植物を含む8つのカテゴリをカバーする、大規模で高品質な局所画像検索データベースは、堅牢な物体認識モデルを提供する。
論文参考訳（メタデータ） (2025-12-29T12:16:12Z)
Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文参考訳（メタデータ） (2025-12-24T14:59:49Z)
SIT-Graph: State Integrated Tool Graph for Multi-Turn Agents [35.85800795225018]
State Integrated Tool Graph (SIT-Graph)は、エピソードとプロシージャメモリを統合した人間の意思決定にインスパイアされている。推論時に、SIT-Graphは、エピソード的リコールと手続き的実行の間の人間のようなバランスを可能にする。複数のステートフルなマルチターンツール使用ベンチマークによる実験は、SIT-Graphが強いメモリベースとグラフベースのベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-08T08:27:24Z)
Thinking with Programming Vision: Towards a Unified View for Thinking with Images [23.596757163808906]
最先端のMLLMでさえ驚くほど不安定であり、単純な向きの変化や自然破壊を伴う画像の性能劣化が顕著であることを示す。我々は,モデルが任意のイメージ操作を実行するユニバーサルインターフェースとしてコードを生成する,フレキシブルでスケーラブルなコード・アズ・ツール・フレームワークであるCodeVisionを提案する。
論文参考訳（メタデータ） (2025-12-03T12:44:15Z)
CoSineVerifier: Tool-Augmented Answer Verification for Computation-Oriented Scientific Questions [32.14674040685995]
本稿では,外部ルーリックを利用して正確な計算と記号の単純化を行うツール拡張検証器モデルを提案する。 STEM科目、一般QA、長文推論タスクで行った実験は、モデルの強力な一般化を示している。
論文参考訳（メタデータ） (2025-12-01T03:08:43Z)
CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization [11.951768962241713]
最終回答の精度は、しばしば不誠実な視覚的推論を隠蔽する。ツール・アウェア・ポリシー・オプティマイゼーションで訓練されたコードベースのビジュアルエージェントであるCodeVを紹介する。
論文参考訳（メタデータ） (2025-11-24T19:48:46Z)
RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文参考訳（メタデータ） (2025-10-15T17:05:37Z)
Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文参考訳（メタデータ） (2025-09-29T17:59:57Z)
Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-26T18:38:38Z)
CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [107.81733977430517]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文参考訳（メタデータ） (2023-06-30T08:17:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。