論文の概要: CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors
- arxiv url: http://arxiv.org/abs/2604.21241v1
- Date: Thu, 23 Apr 2026 03:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.277582
- Title: CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors
- Title(参考訳): CorridorVLA:スパースアンカーによる生成行動ヘッドの空間的制約
- Authors: Dachong Li, ZhuangZhuang Chen, Jin Zhang, Jianqiang Li,
- Abstract要約: CorridorVLA$は、小さな空間アンカーをインクリメンタルな物理的変化として予測する。
アンカーはフローマッチングアクションヘッドを導く廊下を定義する。
その結果,行動整合性のある身体的手がかりは生成的行動ポリシーに制約を与える可能性が示唆された。
- 参考スコア(独自算出の注目度): 15.294384164315005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision--Language--Action (VLA) models often use intermediate representations to connect multimodal inputs with continuous control, yet spatial guidance is often injected implicitly through latent features. We propose $CorridorVLA$, which predicts sparse spatial anchors as incremental physical changes (e.g., $Δ$-positions) and uses them to impose an explicit tolerance region in the training objective for action generation. The anchors define a corridor that guides a flow-matching action head: trajectories whose implied spatial evolution falls outside it receive corrective gradients, while minor deviations from contacts and execution noise are permitted. On the more challenging LIBERO-Plus benchmark, CorridorVLA yields consistent gains across both SmolVLA and GR00T, improving success rate by $3.4\%$--$12.4\%$ over the corresponding baselines; notably, our GR00T-Corr variant reaches a success rate of $83.21\%$. These results indicate that action-aligned physical cues can provide direct and interpretable constraints for generative action policies, complementing spatial guidance encoded in visual or latent forms. Code is available at https://github.com/corridorVLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、しばしば中間表現を用いてマルチモーダル入力と連続的な制御を接続するが、空間誘導はしばしば潜伏した特徴を通して暗黙的に注入される。
本稿では, 空間アンカーを漸進的な物理的変化(例えば$Δ$-positions)として予測する$CorridorVLA$を提案する。
アンカーはフローマッチングアクションヘッドを導く廊下を定義しており、インプリートされた空間的進化が外側に落下する軌道は補正勾配を受けるが、接触や実行ノイズからの小さな偏差は許容される。
より困難な LIBERO-Plus ベンチマークでは、CorridorVLA は SmolVLA と GR00T の両方で一貫した利得を得ており、対応するベースラインよりも 3.4\%$--$12.4\% で成功率を向上している。
これらの結果から,視覚的・潜在的な形態で符号化された空間的誘導を補完し,行動整合性のある身体的手がかりが直接的かつ解釈可能な行動方針の制約を与える可能性が示唆された。
コードはhttps://github.com/corridorVLA.comで公開されている。
関連論文リスト
- Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought [55.65577137924979]
本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。
NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。
3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-27T12:04:07Z) - SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models [73.19044613922911]
大規模視覚言語モデル(VLM)は、転送ベースの対向摂動に対して脆弱である。
SGHA-Attackは、複数のターゲット参照を採用し、中間層一貫性を強制するフレームワークである。
オープンソースおよび商用のブラックボックスVLMの実験は、SGHA-Attackが従来の方法よりも強力な目標転送性を実現することを示している。
論文 参考訳(メタデータ) (2026-02-02T03:10:41Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - LTLDoG: Satisfying Temporally-Extended Symbolic Constraints for Safe Diffusion-based Planning [12.839846486863308]
本研究では,新しい静的かつ時間的に拡張された制約/命令に準拠する長い水平軌道を生成することに焦点を当てる。
本稿では、線形時間論理を用いて指定された命令を与えられた逆プロセスの推論ステップを変更する、データ駆動拡散に基づくフレームワーク、 finiteDoGを提案する。
ロボットナビゲーションと操作の実験では、障害物回避と訪問シーケンスを指定する公式を満たす軌道を生成することができる。
論文 参考訳(メタデータ) (2024-05-07T11:54:22Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Self-supervised Feature-Gate Coupling for Dynamic Network Pruning [46.14789934991936]
特徴とゲートの分布を整列する特徴ゲート結合(FGC)手法を提案する。
FGCはプラグアンドプレイモジュールであり、反復的な自己管理方式で2つのステップが実行される。
実験結果から,提案手法がベースラインアプローチを著しく改善することを確認した。
論文 参考訳(メタデータ) (2021-11-29T02:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。