論文の概要: Waking Up Blind: Cold-Start Optimization of Supervision-Free Agentic Trajectories for Grounded Visual Perception
- arxiv url: http://arxiv.org/abs/2604.17475v1
- Date: Sun, 19 Apr 2026 15:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.544297
- Title: Waking Up Blind: Cold-Start Optimization of Supervision-Free Agentic Trajectories for Grounded Visual Perception
- Title(参考訳): 目覚まし盲目:接地型視覚知覚のためのスーパービジョンフリーエージェント軌道のコールドスタート最適化
- Authors: Ashutosh Bajpai, Tamal Majumder, Akshay Nambi, Tanmoy Chakraborty,
- Abstract要約: SVLM(Small Vision-Language Models)は効率的なタスクコントローラであるが、視覚的脆さとツールオーケストレーションの貧弱さに悩まされることが多い。
SPECTRA(Cascaded Tool Rollout Alignment)で実現可能な自己教師型知覚法を提案する。
SPECTRAはSVLMのコールドスタート強化学習を通じてエージェント機能をブートストラップする。
- 参考スコア(独自算出の注目度): 18.565166776233223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small Vision-Language Models (SVLMs) are efficient task controllers but often suffer from visual brittleness and poor tool orchestration. They typically require expensive supervised trajectory tuning to mitigate these deficits. In this work, we propose Self-supervised Perception Enabled by Cascaded Tool Rollout Alignment (SPECTRA), a supervision-free framework that bootstraps agentic capabilities via Coldstart Reinforcement Learning for SVLMs. SPECTRA enforces Soft Structured Multi-turn Rollouts, a topological constraint that directs agents to explicitly sequence tool derived evidence before synthesis, effectively grounding reasoning in visual observations. We employ a multi-objective reward signal that simultaneously maximizes task correctness, rollout structure, and tool utility, enabling agent to self-discover robust behaviors without human preference labels. We further introduce Tool Instrumental Utility (TIU), a novel metric to quantify tool efficacy in the absence of ground truth. Extensive evaluations across composite and out-of-distribution (MMMU-Pro) benchmarks demonstrate that SPECTRA boosts agentic trajectories, improving task accuracy by up to 5% and tool efficiency by 9%, enabling more efficient multimodal agents that learn effectively from environmental interaction alone.
- Abstract(参考訳): SVLM(Small Vision-Language Models)は効率的なタスクコントローラであるが、視覚的脆さとツールオーケストレーションの貧弱さに悩まされることが多い。
一般的にこれらの欠陥を緩和するためには、高価な教師付き軌道チューニングが必要である。
本稿では, SVLMの冷間開始強化学習を通じてエージェント機能をブートストラップする, 監視不要なフレームワークである, Cascaded Tool Rollout Alignment (SPECTRA) によって実現可能な自己教師型知覚(Self-supervised Perception)を提案する。
SPECTRAはソフト構造化マルチターンロールアウト(Soft Structured Multi-turn Rollouts)を施行している。
我々は、タスクの正しさ、ロールアウト構造、ツールユーティリティを同時に最大化する多目的報酬信号を用いて、エージェントが人間の選好ラベルなしで堅牢な振る舞いを自己発見することを可能にする。
また,ツール・インスツルメンタル・ユーティリティー(TIU)についても紹介する。
複合・アウト・オブ・ディストリビューション(MMMU-Pro)ベンチマークによる広範囲な評価は、SPECTRAがエージェントの軌道を加速し、タスク精度を最大5%向上し、ツール効率を9%向上させ、環境相互作用のみから効果的に学習するより効率的なマルチモーダルエージェントを可能にすることを示した。
関連論文リスト
- ToolOmni: Enabling Open-World Tool Use via Agentic learning with Proactive Retrieval and Grounded Execution [49.30293260493709]
大きな言語モデル(LLM)は、外部ツールを利用することで問題解決能力を高める。
静的埋め込み検索やパラメータ記憶に頼っている既存の手法は、ユーザの意図をツールのセマンティクスに合わせるのに苦労している。
提案するツールOmniは,プロアクティブ検索とグラウンドド実行により,オープンワールドツール利用のためのLLMを実現する統合エージェントフレームワークである。
論文 参考訳(メタデータ) (2026-04-15T12:26:10Z) - Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models [27.250148827297604]
HDPOは、ツールの効率を競合するスカラー目標から厳格な条件に書き換えるフレームワークです。
私たちのモデルであるMetisは、推論精度を同時に高めながら、ツールの呼び出しを桁違いに削減します。
論文 参考訳(メタデータ) (2026-04-09T17:59:57Z) - AutoTool: Efficient Tool Selection for Large Language Model Agents [10.061664247482488]
LLMの推論と意思決定能力を活用することで、複雑なタスクを自動化する強力なツールとして、LLM(Large Language Model)エージェントが登場した。
しかしながら、大きなボトルネックは、ツール選択の推論コストの高さにある。特に、各ステップで使用するツールを決定するために、繰り返しLLMを呼び出すReActのようなアプローチでは。
ツール使用慣性(Tool use inertia)という重要な経験的観測を生かして、繰り返しLLM推論をバイパスするグラフベースの新しいフレームワークであるAutoToolを提案する。
論文 参考訳(メタデータ) (2025-11-18T16:41:48Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。