論文の概要: TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.24584v1
- Date: Wed, 25 Mar 2026 17:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.431186
- Title: TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models
- Title(参考訳): TAG:視覚・言語・アクションモデルにおける安定物体中心推論のための目標非依存誘導
- Authors: Jiaying Zhou, Zhihao Zhan, Ruifeng Zhai, Qinhan Lyu, Hao Liu, Keze Wang, Liang Lin, Guangrun Wang,
- Abstract要約: VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
- 参考スコア(独自算出の注目度): 59.13964209628383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision--Language--Action (VLA) policies have shown strong progress in mapping language instructions and visual observations to robotic actions, yet their reliability degrades in cluttered scenes with distractors. By analyzing failure cases, we find that many errors do not arise from infeasible motions, but from instance-level grounding failures: the policy often produces a plausible grasp trajectory that lands slightly off-target or even on the wrong object instance. To address this issue, we propose TAG (Target-Agnostic Guidance), a simple inference-time guidance mechanism that explicitly reduces distractor- and appearance-induced bias in VLA policies. Inspired by classifier-free guidance (CFG), TAG contrasts policy predictions under the original observation and an object-erased observation, and uses their difference as a residual steering signal that strengthens the influence of object evidence in the decision process. TAG does not require modifying the policy architecture and can be integrated with existing VLA policies with minimal training and inference changes. We evaluate TAG on standard manipulation benchmarks, including LIBERO, LIBERO-Plus, and VLABench, where it consistently improves robustness under clutter and reduces near-miss and wrong-object executions.
- Abstract(参考訳): VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
フェールケースを分析することで、多くのエラーは実現不可能な動作から生じるのではなく、インスタンスレベルの基盤的障害から生じていることがわかった。
この問題に対処するため,本論文では,VLAポリシーにおける邪魔者や外見に起因したバイアスを明示的に低減するシンプルな推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
分類器フリーガイダンス (CFG) にインスパイアされたTAGは、元々の観察と対象推定に基づく政策予測を対比し、その差分を、決定過程における対象証拠の影響を強める残留ステアリング信号として利用する。
TAGはポリシーアーキテクチャの変更を必要とせず、最小限のトレーニングと推論の変更で既存のVLAポリシーと統合することができる。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
関連論文リスト
- Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration [24.562540060971273]
VLA(Vision-Language-Action)モデルにより、ロボットは自然言語命令から直接操作タスクを実行することができる。
言語命令がシーンに矛盾する場合でも、VLAポリシーが視覚的に妥当な動作を実行し続ける重要な障害モードを明らかにする。
Instruction-Guided Attention Recalibration (IGAR) を提案する。
論文 参考訳(メタデータ) (2026-03-06T08:01:36Z) - Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking [6.713814849613683]
視覚言語アクション(VLA)ポリシーは、比較的少数のデモで強力な操作ベンチマーク性能を報告している。
本研究は, オブジェクト配置のばらつきを, 作業空間のランダム化まで徐々に増大させる多目的ピッキング研究である。
SmolVLAや$_0.5$といった代表的VLAポリシでは、操作プリミティブの実行は、命令条件のタスク成功よりもかなり信頼性が高いことが分かりました。
論文 参考訳(メタデータ) (2026-02-27T16:20:04Z) - MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文 参考訳(メタデータ) (2026-02-04T04:48:16Z) - From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models [42.553888395227766]
本稿では、視覚言語アクション(VLA)モデルのための軽量でトレーニング不要なフレームワークを提案する。
VLA-SCTは自己修正制御ループとして動作し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。
本手法は,LIBEROベンチマークのすべてのデータセットに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-02-02T08:44:40Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection [25.9348571356454]
リモートセンシングオブジェクト検出のためのLLM支援セマンティックガイダンスフレームワーク
Dense Pseudo-Label Assignmentメカニズムは、ラベルなしデータと疎ラベル付きデータの両方に擬似ラベルを適応的に割り当てる。
Adaptive Hard-Negative Reweighting Module による教師付き学習領域の安定化
論文 参考訳(メタデータ) (2025-09-21T08:05:43Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。