論文の概要: Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.05147v1
- Date: Thu, 05 Mar 2026 13:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.238292
- Title: Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
- Title(参考訳): Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
- Authors: Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci,
- Abstract要約: 認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
- 参考スコア(独自算出の注目度): 7.802379200026965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research on Vision-Language-Action (VLA) models predominantly focuses on enhancing generalization through established reasoning techniques. While effective, these improvements invariably increase computational complexity and inference latency. Furthermore, these mechanisms are typically applied indiscriminately, resulting in the inefficient allocation of resources for trivial tasks while simultaneously failing to provide the uncertainty estimation necessary to prevent catastrophic failure on out-of-distribution tasks. Inspired by human cognition, we propose an adaptive framework that dynamically routes VLA execution based on the complexity of the perceived state. Our approach transforms the VLA's vision-language backbone into an active detection tool by projecting latent embeddings into an ensemble of parametric and non-parametric estimators. This allows the system to execute known tasks immediately (Act), reason about ambiguous scenarios (Think), and preemptively halt execution when encountering significant physical or semantic anomalies (Abstain). In our empirical analysis, we observe a phenomenon where visual embeddings alone are superior for inferring task complexity due to the semantic invariance of language. Evaluated on the LIBERO and LIBERO-PRO benchmarks as well as on a real robot, our vision-only configuration achieves 80% F1-Score using as little as 5% of training data, establishing itself as a reliable and efficient task complexity detector.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルに関する現在の研究は、確立された推論技術による一般化の強化に主に焦点をあてている。
効果はあるものの、これらの改善は計算の複雑さと推論のレイテンシを増大させる。
さらに、これらのメカニズムは典型的には無差別に適用され、結果として自明なタスクに対するリソースの非効率な割り当てと、アウト・オブ・ディストリビューションタスクにおける破滅的な失敗を防ぐために必要な不確実性の推定が同時に失敗する。
人間の認知に触発されて,知覚状態の複雑さに基づいて動的にVLA実行をルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
これにより、システムは既知のタスク(Act)を即座に実行し、曖昧なシナリオ(Think)を推論し、重要な物理的またはセマンティックな異常(Abstain)に遭遇した場合、前もって実行を停止できる。
経験的分析では、言語の意味的不変性によるタスクの複雑さを推測する上で、視覚的埋め込みだけで優れている現象が観察される。
LIBERO と LIBERO-PRO のベンチマークおよび実際のロボット上での評価により、我々の視覚のみの構成は、トレーニングデータの 5% 以下を用いて80% F1-Scoreを実現し、信頼性と効率のよいタスク複雑性検出装置として確立した。
関連論文リスト
- LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文 参考訳(メタデータ) (2026-02-04T04:48:16Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks [38.058215007885096]
大規模言語モデル(LLM)の自己評価は高い計算オーバーヘッドをもたらし、本質的なバイアスによる過信問題を引き起こす。
本稿では、軽量で効果的な自己改善を目的とした、検証不能なタスクに対する新しい自己評価自由アプローチを提案する。
論文 参考訳(メタデータ) (2025-09-27T02:44:05Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z) - Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。
我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。
近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。