論文の概要: When to Re-Commit: Temporal Abstraction Discovery for Long-Horizon Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2605.09860v3
- Date: Wed, 20 May 2026 01:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:43.921065
- Title: When to Re-Commit: Temporal Abstraction Discovery for Long-Horizon Vision-Language Reasoning
- Title(参考訳): 長期ビジョンランゲージ推論のための時間的抽象的発見
- Authors: Chen Li, Zhantao Yang, Fangyi Chen, Han Zhang, Anudeepsekhar Bolimera, Marios Savvides,
- Abstract要約: ロングホライゾン推論は、どのような行動を取るかだけでなく、次の観察の前にどれだけ深くコミットするかを決定する必要がある。
我々はこれを、Emphcommitment depth:replan間でオープンループで実行されるプリミティブアクションの数という形式化します。
私たちはコミットメントの深さを、ポリシー自体の学習可能な状態条件変数としてインスタンス化します。
- 参考スコア(独自算出の注目度): 14.87891098774189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon reasoning requires deciding not only what actions to take, but how deeply to commit before the next observation. We formalize this as \emph{commitment depth}: the number of primitive actions executed open-loop between replans. Commitment depth induces a trade-off between replanning cost and compounding execution error, yet most existing long-horizon systems fix it as a hand-designed scalar. In this work, we instead treat commitment depth as a learnable, state-conditioned variable of the policy itself. We instantiate this within a model-native vision--language policy that jointly predicts both what to execute and for how long. Across Sliding Puzzle and Sokoban, the resulting adaptive policy Pareto-dominates every non-degenerate fixed-depth baseline, achieving up to 12.5 percentage points higher solve rate while using approximately 25\% fewer primitive actions per episode. Despite using a 7B backbone, our method outperforms GPT-5.5 and Claude Sonnet on both tasks, while every tested open-weight vision--language model achieves 0\% zero-shot success. We further present a theoretical analysis showing that, under the standard commitment-depth surrogate, state-conditioned commitment strictly dominates any fixed depth whenever the locally optimal depth varies across states.
- Abstract(参考訳): ロングホライゾン推論は、どのような行動を取るかだけでなく、次の観察の前にどれだけ深くコミットするかを決定する必要がある。
我々はこれを \emph{commitment depth}: replan 間でオープンループで実行されるプリミティブアクションの数として定式化する。
コミット深さは、計画コストと複雑な実行エラーの間のトレードオフを引き起こすが、既存のほとんどのロングホライゾンシステムは手作業で設計したスカラーとして修正している。
この作業では、代わりにコミットメントの深さをポリシー自体の学習可能な状態条件変数として扱います。
私たちはこれをモデルネイティブなビジョン-言語ポリシーでインスタンス化し、実行方法と実行時間の両方を共同で予測します。
Sliding Puzzle と Sokoban にまたがって、結果の適応ポリシー Pareto は、すべての非退化固定深度ベースラインを支配し、1エピソードあたりのプリミティブアクションを約 25 % 減らしながら、最大 12.5 ポイント高い解率を達成する。
7Bバックボーンを用いても、GPT-5.5とClaude Sonnetを両タスクで上回り、テストされた全てのオープンウェイトビジョン言語モデルは0倍の0ショット成功を達成する。
さらに、標準的なコミットメント-深さサロゲートの下で、状態条件付きコミットメントは、局所的な最適深さが状態によって変化するとき、いかなる固定深度も厳密に支配することを示す理論的解析を提示する。
関連論文リスト
- Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。
LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。
実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文 参考訳(メタデータ) (2026-04-23T17:59:04Z) - Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning [53.58654277639939]
文脈内探索(In-context Exploring)は、単一の連続した文脈内で仮説を生成、検証、洗練する本質的な能力である。
本稿では,モデルにさらなる探索を促すLongth-Incentivized Explorationを提案する。
提案手法は、ドメイン内タスクの平均4.4%改善と、ドメイン外ベンチマークの2.7%向上を実現している。
論文 参考訳(メタデータ) (2026-02-12T09:24:32Z) - VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation [22.508129824741555]
Vision-Language-Action (VLA)モデルでは、マルチモーダル推論を物理的制御でブリッジするが、デモの少ない新しいタスクに適応することは信頼性が低い。
我々は,エフェジェネレーションの観点から少数ショットVLA適応を研究し,新しいフレームワーク textbfVGAS (textbfValue-textbfGuided textbfAction-chunk textbfSelection) を提案する。
セマンティックなアクションチャンクを識別するために、推論タイムのベスト・オブ・N$選択を実行する
論文 参考訳(メタデータ) (2026-02-07T06:31:53Z) - Decoupled Q-Chunking [63.864222078287575]
チャンクされた批評家は、個々のアクションではなく、短いアクションシーケンス("チャンク")の価値を見積もって、価値のバックアップをスピードアップします。
私たちの重要な洞察は、批判者のチャンクの長さをポリシーのチャンクの長さから切り離すことで、ポリシーがより短いアクションチャンクを乗り越えることを可能にすることです。
この設計は、オープンループのサブ最適化と長いアクションチャンクに対するアクションチャンクポリシーの学習の難しさを両立させながら、マルチステップ値伝搬の利点を保っている。
論文 参考訳(メタデータ) (2025-12-11T18:52:51Z) - Optimal Depth of Neural Networks [2.1756081703276]
本稿では,ニューラルネットワークの最適深さの決定に対処する公式な理論的枠組みを提案する。
我々は、シーケンシャルな決定プロセスとして、隠蔽表現の層間進化をモデル化する。
本稿では,ネットワークが効率よく早期終了可能な表現を学習することを奨励する,新規で実用的な正規化用語である$mathcalL_rm depth$を提案する。
論文 参考訳(メタデータ) (2025-06-20T09:26:01Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文 参考訳(メタデータ) (2020-04-27T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。