論文の概要: Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2512.20934v1
- Date: Wed, 24 Dec 2025 04:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.676355
- Title: Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning
- Title(参考訳): Transductive Visual Programming: 空間推論の経験からツールライブラリを進化させる
- Authors: Shengguang Wu, Xiaohan Wang, Yuhui Zhang, Hao Zhu, Serena Yeung-Levy,
- Abstract要約: 提案するTransductive Visual Programming (TVP, Transductive Visual Programming) は、投機ではなく、独自の経験から新しいツールを構築する新しいフレームワークである。
TVPは最先端のパフォーマンスを達成し、GPT-4oを22%上回り、以前の最高のビジュアルプログラミングシステムを11%上回っている。
私たちの研究は、自己進化型ビジュアルプログラミングエージェントを構築するための強力なパラダイムとして、経験駆動型トランスダクティブツールの作成を確立します。
- 参考スコア(独自算出の注目度): 63.071280297939005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning in 3D scenes requires precise geometric calculations that challenge vision-language models. Visual programming addresses this by decomposing problems into steps calling specialized tools, yet existing methods rely on either fixed toolsets or speculative tool induction before solving problems, resulting in suboptimal programs and poor utilization of induced tools. We present Transductive Visual Programming (TVP), a novel framework that builds new tools from its own experience rather than speculation. TVP first solves problems using basic tools while accumulating experiential solutions into an Example Library, then abstracts recurring patterns from these programs into reusable higher-level tools for an evolving Tool Library. This allows TVP to tackle new problems with increasingly powerful tools learned from experience. On Omni3D-Bench, TVP achieves state-of-the-art performance, outperforming GPT-4o by 22% and the previous best visual programming system by 11%. Our transductively learned tools are used 5x more frequently as core program dependency than inductively created ones, demonstrating more effective tool discovery and reuse. The evolved tools also show strong generalization to unseen spatial tasks, achieving superior performance on benchmarks from SpatialScore-Hard collection without any testset-specific modification. Our work establishes experience-driven transductive tool creation as a powerful paradigm for building self-evolving visual programming agents that effectively tackle challenging spatial reasoning tasks. We release our code at https://transductive-visualprogram.github.io/.
- Abstract(参考訳): 3次元シーンにおける空間的推論は、視覚言語モデルに挑戦する正確な幾何学的計算を必要とする。
ビジュアルプログラミングは、問題を特殊なツールを呼び出すステップに分解することでこの問題に対処するが、既存の手法は、問題を解決する前に固定されたツールセットまたは投機的なツールインジェクションに依存する。
提案するTransductive Visual Programming (TVP, Transductive Visual Programming) は、投機ではなく、独自の経験から新しいツールを構築する新しいフレームワークである。
TVPはまず、経験的なソリューションをサンプルライブラリに蓄積しながら、基本的なツールを使用して問題を解決し、その後、これらのプログラムからの繰り返しパターンを、進化するツールライブラリのための再利用可能な高レベルツールに抽象化する。
これによってTVPは、経験から学んだ強力なツールによって、新たな問題に取り組むことができる。
Omni3D-Benchでは、TVPは最先端のパフォーマンスを達成し、GPT-4oを22%上回った。
我々のトランスダクティブ学習ツールは、誘導学習ツールよりも5倍頻繁にコアプログラム依存として使われ、より効果的なツール発見と再利用を実証しています。
進化したツールはまた、空間的なタスクが見えないように強力な一般化を示し、SpatialScore-Hardコレクションのベンチマークでテストセット固有の変更をせずに優れたパフォーマンスを実現している。
私たちの研究は、空間推論の課題に効果的に取り組む自己進化型ビジュアルプログラミングエージェントを構築するための強力なパラダイムとして、経験駆動型トランスダクティブツールの作成を確立します。
コードについてはhttps://transductive-visual programs.github.io/で公開しています。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Learning Generalizable Tool-use Skills through Trajectory Generation [13.879860388944214]
4つの異なる変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。
モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。
トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2023-09-29T21:32:42Z) - Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。
既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。
ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。