論文の概要: Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation
- arxiv url: http://arxiv.org/abs/2603.10340v1
- Date: Wed, 11 Mar 2026 02:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.749935
- Title: Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation
- Title(参考訳): 概念付き視覚蒸留による視覚言語行動モデルにおける視覚的クラッタの克服
- Authors: Sangmim Song, Sarath Kodagoda, Marc Carmichael, Karthick Thiyagarajan,
- Abstract要約: Concept-Gated Visual Distillation (CGVD) は、Vision-Language-Action (VLA) ポリシーを安定化するトレーニングフリーで、モデルに依存しない推論フレームワークである。
CGVDは、命令を安全かつ邪魔なセットにパースすることで動作し、2層ターゲットリファインメントプロセスを利用する。
本手法は, 乱雑な操作作業において, 最先端のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 2.3099144596725565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models demonstrate impressive zero-shot generalization but frequently suffer from a "Precision-Reasoning Gap" in cluttered environments. This failure is driven by background-induced feature dilution, where high-frequency semantic noise corrupts the geometric grounding required for precise manipulation. To bridge this gap, we propose Concept-Gated Visual Distillation (CGVD), a training-free, model-agnostic inference framework that stabilizes VLA policies. CGVD operates by parsing instructions into safe and distractor sets, utilizing a two-layer target refinement process--combining cross-validation and spatial disambiguation--to explicitly penalize false positives and isolate genuine manipulation targets. We then process the scene via Fourier-based inpainting, generating a clean observation that actively suppresses semantic distractors while preserving critical spatial geometry and visual proprioception. Extensive evaluations in highly cluttered manipulation tasks demonstrate that CGVD prevents performance collapse. In environments with dense semantic distractors, our method significantly outperforms state-of-the-art baselines, achieving a 77.5% success rate compared to the baseline's 43.0%. By enforcing strict attribute adherence, CGVD establishes inference-time visual distillation as a critical prerequisite for robust robotic manipulation in the clutter.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは印象的なゼロショットの一般化を示すが、乱雑な環境では「精密推論ギャップ」に悩まされることが多い。
この障害は背景による特徴希釈によって引き起こされ、高周波セマンティックノイズは正確な操作に必要な幾何学的接地を損なう。
このギャップを埋めるために、VLAポリシーを安定化するトレーニング不要でモデルに依存しない推論フレームワークである概念拡張視覚蒸留(CGVD)を提案する。
CGVDは、命令を安全かつ不注意なセットに解析し、クロスバリデーションと空間的曖昧さを組み合わせ、偽陽性を明示的に罰し、真の操作ターゲットを分離する2層ターゲット精錬プロセスを利用する。
次に、Fourierをベースとした塗り絵を用いてシーンを処理し、重要な空間的幾何学と視覚的受容を保ちながら、意味的障害を積極的に抑制するクリーンな観察を生成する。
乱雑な操作タスクにおける広範囲な評価は、CGVDが性能の崩壊を防ぐことを証明している。
密接なセマンティック・イントラクタを持つ環境では,本手法は最先端のベースラインを著しく上回り,ベースラインの43.0%に比べて77.5%の成功率を達成した。
CGVDは、厳密な属性の付着を強制することにより、推論時視覚蒸留を、クラッタにおける堅牢なロボット操作の必須条件として確立する。
関連論文リスト
- RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations [12.753436440584409]
VisRAG(Retrieval-Augmented Generation)は、視覚言語モデル(VLM)を活用して、関連する視覚文書を共同で検索し、マルチモーダルな証拠に基づいて根拠付き回答を生成する。
既存のVisRAGモデルは、視覚入力がぼやけ、ノイズ、低光、シャドーなどの歪みに悩まされるときに性能が低下する。
因果誘導型デュアルパスフレームワークであるRobustVisRAGを導入し,効率とゼロショットの一般化を保ちながら,VisRAGの堅牢性を向上させる。
論文 参考訳(メタデータ) (2026-02-25T15:27:57Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs [6.2827295422415235]
VLA(Vision-Language-Action)モデルは、汎用的なロボット操作の主要なパラダイムとして登場した。
しかし、信頼性の高い現実世界の展開は、視覚障害に対する脆弱さによって著しく妨げられている。
センサ障害に対してVLAモデルを免疫するために設計された視覚変換器であるCRT(Corruption Restoration Transformer)を導入する。
論文 参考訳(メタデータ) (2026-02-01T11:09:08Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [7.353998772647553]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。