Fugu-MT 論文翻訳(概要): Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States

論文の概要: Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States

arxiv url: http://arxiv.org/abs/2605.17144v1
Date: Sat, 16 May 2026 20:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.70577
Title: Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States
Title（参考訳）: コントラスト・コンセプト・アクティベーション・ステアリング(COAST) : 隠れ状態を通してのビジョン・ランゲージ・アクション・モデル
Authors: Miranda Muqing Miao, Subin Kim, Brandon Yang, Lyle Ungar,
Abstract要約: Vision-Language-Action(VLA)モデルは、WebスケールのVision-Language Model(VLM)事前トレーニングから、強力な知覚的事前学習を活用する。これを軽減するために、コントラスト概念活性化ステアリング(COAST)を提案する。 COASTは、目標となるロボットタスクに対して成功クリティカルなサブスペースを特定するために概念を使用する。
参考スコア（独自算出の注目度）: 4.1864205728857256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models leverage powerful perceptual priors from web-scale Vision-Language Model (VLM) pre-training, yet they remain surprisingly brittle in practice, frequently failing at simple robotic tasks. To mitigate this, we propose Contrastive Conceptor Activation Steering (COAST). COAST builds on the notion of a "conceptor", a linear operator that soft-projects data into the principal components of a target distribution. COAST uses conceptors to identify success-critical subspaces for a target robotic task from a few examples of success and failure rollouts. At inference time, it steers VLA latents into these identified success subspaces to improve task outcomes. Across three architecturally distinct neural policies (flow-matching VLA, autoregressive VLA, and Diffusion Policy), COAST improves absolute mean simulation and real-robot task success rate by over 20 and 40% respectively. The activation subspace geometry reveals that failure modes share substantial structure across tasks while success representations remain largely task-specific. When tasks share similar failure modes, this structure enables previously fitted conceptors to improve performance on new tasks without refitting. Ultimately, our results suggest that current VLAs retain substantial task-relevant knowledge in their latent representations, and that the action expert's decoding bottleneck could be mitigated by steering its residual stream toward task-relevant subspaces. COAST provides a lightweight, training-free path to unlocking these latent capabilities by steering the model towards its own "success" distributions.
Abstract（参考訳）: Vision-Language-Action(VLA)モデルは、WebスケールのVision-Language Model(VLM)事前トレーニングから、強力な知覚的事前学習を活用するが、実際は驚くほど不安定であり、単純なロボットタスクでは頻繁に失敗する。これを軽減するために,Contrastive Conceptor Activation Steering (COAST)を提案する。 COASTは、ターゲットディストリビューションの主コンポーネントにデータをソフトプロジェクションするリニア演算子である"conceptor"の概念に基づいている。 COASTは、目標とするロボットタスクにおける成功クリティカルなサブスペースを、成功と失敗のロールアウトのいくつかの例から識別するために、概念的に使用する。推論時に、VLAラテントをこれらの特定された成功部分空間に操り、タスクの結果を改善する。アーキテクチャ的に異なる3つのニューラルポリシー(フローマッチングVLA、自己回帰VLA、拡散ポリシー)の中で、COASTは絶対平均シミュレーションと実ロボットタスクの成功率をそれぞれ20と40%以上改善する。アクティベーション部分空間幾何学は、失敗モードがタスク間で実質的な構造を共有しているのに対して、成功表現はタスク固有のままであることを示している。タスクが同様の障害モードを共有する場合、この構造により、前もって組み込まれていた概念が、再適合することなく、新しいタスクのパフォーマンスを向上させることができる。最終的に,本研究の結果から,現在のVLAは潜在表現におけるタスク関連知識を保ち,タスク関連部分空間に対して残ストリームを操ることで,アクションエキスパートのデコードボトルネックを軽減できることが示唆された。 COASTは、これらの潜在能力を解放するための、軽量でトレーニング不要なパスを提供する。

関連論文リスト

PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文参考訳（メタデータ） (2026-04-30T06:14:02Z)
Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model [31.013109374489442]
VLA(Vision-Language-Action)モデルは、最近、具体化されたタスク間で強力なパフォーマンスを示した。本稿では,拡散行動専門家が複数の候補アクションチャンクをドラフトし,VLMが各候補を1つの前方パスに1つの難易度基準でスコア付けして1つを選択することを提案する。マッチしたバックボーン、トレーニングデータ、アクション・チャンク長では、ADVは拡散ベースのベースラインよりも実世界の+4.3ポイント、+19.7ポイントで成功率を向上させる。
論文参考訳（メタデータ） (2026-03-18T09:16:20Z)
Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文参考訳（メタデータ） (2026-02-17T07:07:15Z)
Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文参考訳（メタデータ） (2026-02-04T04:48:16Z)
From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models [42.553888395227766]
本稿では、視覚言語アクション(VLA)モデルのための軽量でトレーニング不要なフレームワークを提案する。 VLA-SCTは自己修正制御ループとして動作し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。本手法は,LIBEROベンチマークのすべてのデータセットに対して一貫した改善を実現する。
論文参考訳（メタデータ） (2026-02-02T08:44:40Z)
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。 Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。 EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文参考訳（メタデータ） (2025-12-16T18:26:38Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。