論文の概要: SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.04208v1
- Date: Wed, 04 Feb 2026 04:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.373151
- Title: SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models
- Title(参考訳): SCALE: ビジョン・ランゲージ・アクションモデルに対する自己不確実性条件付き適応探索と実行
- Authors: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi,
- Abstract要約: VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
- 参考スコア(独自算出の注目度): 21.133970394496327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用ロボット制御のための有望なパラダイムとして登場し、テストタイムスケーリング(TTS)は、トレーニングを超えて堅牢性を高めるために注目を集めている。
しかしながら、既存のVLAのためのTSメソッドでは、追加のトレーニング、検証、複数前方パスが必要であるため、デプロイには実用的ではない。
さらに、視覚的表現を知覚的曖昧さの下で固定的に保ちながら、行動復号にのみ介入し、何をすべきかを決めるのと同じくらい、どのように知覚するかを再考することが重要である。
これらの制約に対処するため,本研究では,「自己不確実性」に基づく視覚知覚と行動を共同で調整するシンプルな推論戦略であるSCALEを提案する。
SCALEは、高い不確実性の下での知覚と行動の両方の探索を拡大し、様々な条件にまたがって適応実行を自信を持って呼び起こすときの搾取に焦点を当てる。
シミュレーションおよび実世界のベンチマーク実験により、SCALEは最先端のVLAを改善し、シングルパス効率を維持しながら既存のTSメソッドより優れていることが示された。
関連論文リスト
- VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Training-Free Zero-Shot Temporal Action Detection with Vision-Language Models [15.17499718666202]
学習自由ゼロショット時間行動検出法(FreeZAD)を提案する。
既存のヴィジュアル言語(ViL)モデルを利用して、未トリミングビデオ内の見えないアクティビティを直接分類し、ローカライズする。
トレーニング不要の手法は、実行時の1/13しか必要とせず、最先端の教師なし手法よりも優れています。
論文 参考訳(メタデータ) (2025-01-23T16:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。