論文の概要: Stable Language Guidance for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2601.04052v1
- Date: Wed, 07 Jan 2026 16:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.679983
- Title: Stable Language Guidance for Vision-Language-Action Models
- Title(参考訳): 視覚言語行動モデルのための安定言語指導
- Authors: Zhihao Zhan, Yuhao Chen, Jiaying Zhou, Qinhan Lv, Hao Liu, Keze Wang, Liang Lin, Guangrun Wang,
- Abstract要約: 残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
- 参考スコア(独自算出の注目度): 62.80963701282789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated impressive capabilities in generalized robotic control; however, they remain notoriously brittle to linguistic perturbations. We identify a critical ``modality collapse'' phenomenon where strong visual priors overwhelm sparse linguistic signals, causing agents to overfit to specific instruction phrasings while ignoring the underlying semantic intent. To address this, we propose \textbf{Residual Semantic Steering (RSS)}, a probabilistic framework that disentangles physical affordance from semantic execution. RSS introduces two theoretical innovations: (1) \textbf{Monte Carlo Syntactic Integration}, which approximates the true semantic posterior via dense, LLM-driven distributional expansion, and (2) \textbf{Residual Affordance Steering}, a dual-stream decoding mechanism that explicitly isolates the causal influence of language by subtracting the visual affordance prior. Theoretical analysis suggests that RSS effectively maximizes the mutual information between action and intent while suppressing visual distractors. Empirical results across diverse manipulation benchmarks demonstrate that RSS achieves state-of-the-art robustness, maintaining performance even under adversarial linguistic perturbations.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用ロボット制御において印象的な能力を示しているが、言語的な摂動には弱い。
我々は,強い視覚的先行が言語信号の不足を克服し,エージェントが基礎となる意味的意図を無視しながら,特定の指示文に過度に適合する,批判的な「モダリティ崩壊」現象を同定する。
これを解決するために,意味的実行から身体的余裕を逸脱させる確率的フレームワークである「textbf{Residual Semantic Steering (RSS)} を提案する。
RSSは次の2つの理論的革新を導入している: (1) \textbf{Monte Carlo Syntactic Integration} は、密集したLLM駆動の分布展開を介して真の意味的後縁を近似し、(2) \textbf{Residual Affordance Steering} は、前もって視覚的余裕を減じることで、言語の因果的影響を明示的に分離する二重ストリームデコーディング機構である。
理論的分析により、RSSは視覚的邪魔を抑えながら、行動と意図の相互情報を効果的に最大化することが示された。
様々な操作ベンチマークによる実証的な結果から、RSSは最先端の堅牢性を達成し、敵対的な言語的摂動の下でも性能を維持することが示される。
関連論文リスト
- Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary [22.925582428795437]
BEATは、ユーザとアイテムの振る舞いを個別に解釈可能なシーケンスにトークン化するフレームワークです。
BEATは、一貫性のある情報的説明を生成しながら、ゼロショットレコメンデーション性能を改善していることを示す。
論文 参考訳(メタデータ) (2025-12-17T17:24:24Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools [41.993750134878766]
Video-STARは、オープン語彙行動認識のためのツール強化学習とコンテキストサブモーション分解を調和させるフレームワークである。
アクションをモノリシックなエンティティとして扱う従来の方法とは異なり、我々のアプローチは、アクションをきめ細かなマッチングのための差別的なサブモーションに革新的に分解する。
本手法は,テキスト中心の推論から視覚的接地推論へ伝達する,明示的な監督を伴わずに,外部ツールを自律的に活用し,サブモーションパターンの優先順位付けを行う。
論文 参考訳(メタデータ) (2025-10-09T17:20:44Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - PiercingEye: Dual-Space Video Violence Detection with Hyperbolic Vision-Language Guidance [39.38656685766509]
既存のビデオ暴力検出手法はユークリッド表現学習に依存している。
ユークリッドおよび双曲幾何学を相乗化する新しい二空間学習フレームワークであるPiercingEyeを提案する。
XD-ViolenceとUCF-Crimeベンチマークの実験は、PiercingEyeが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-26T09:29:10Z) - Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension [31.952192907460713]
Relation-R1は、テキストファーストの統一関係理解フレームワークである。
認知連鎖(CoT)誘導型微調整(SFT)とグループ相対政策最適化(GRPO)を統合している。
広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-20T14:50:49Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。