Fugu-MT 論文翻訳(概要): Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation

論文の概要: Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2603.23202v1
Date: Tue, 24 Mar 2026 13:50:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.506438
Title: Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation
Title（参考訳）: 迷路規則化ビジョンランゲージ・アクションモデルによるロボットマニピュレーション
Authors: Anupam Pani, Yanchao Yang,
Abstract要約: 本稿では、VLAモデルの内部の注意を人間の視覚パターンと一致させる、視線規則化されたトレーニングフレームワークを提案する。既存のVLAアーキテクチャに組み込むと、ベンチマークによって4-12%の改善が得られます。
参考スコア（独自算出の注目度）: 7.281396624646809
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite advances in Vision-Language-Action (VLA) models, robotic manipulation struggles with fine-grained tasks because current models lack mechanisms for active visual attention allocation. Human gaze naturally encodes intent, planning, and execution patterns -- offering a powerful supervisory signal for guiding robot perception. We introduce a gaze-regularized training framework that aligns VLA models' internal attention with human visual patterns without architectural modifications or inference-time overhead. Our method transforms temporally aggregated gaze heatmaps into patch-level distributions and regularizes the transformer's attention through KL divergence, creating an inductive bias toward task-relevant features while preserving deployment efficiency. When integrated into existing VLA architectures, our approach yields 4-12% improvements across manipulation benchmarks. The gaze-regularized models reach equivalent performance with fewer training steps and maintain robustness under lighting variations and sensor noise. Beyond performance metrics, the learned attention patterns produce interpretable visualizations that mirror human strategies, enhancing trust in robotic systems. Moreover, our framework requires no eye-tracking equipment and applies directly to existing datasets. These results demonstrate that human perceptual priors can significantly accelerate robot learning while improving both task performance and system interpretability.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルの発展にもかかわらず、現在のモデルにはアクティブな視覚的注意配分のメカニズムがないため、ロボット操作はきめ細かなタスクに苦しむ。人間の視線は、意図、計画、実行パターンを自然にエンコードする -- ロボットの知覚を導くための強力な監視信号を提供する。我々は、VLAモデルの内部の注意を、アーキテクチャの変更や推論時のオーバーヘッドを伴わずに人間の視覚パターンと整合させる、視線規則化されたトレーニングフレームワークを導入する。提案手法は,時間的に集約された視線熱マップをパッチレベルの分布に変換し,KL分散により変圧器の注意を規則化し,配置効率を保ちながらタスク関連特徴に対する帰納バイアスを生じさせる。既存のVLAアーキテクチャに組み込むと、ベンチマークによって4-12%の改善が得られます。視線調整されたモデルは、より少ないトレーニングステップで同等のパフォーマンスに達し、照明のバリエーションやセンサーノイズの下で堅牢性を維持する。パフォーマンス指標以外にも、学習された注意パターンは、人間の戦略を反映し、ロボットシステムの信頼性を高める解釈可能な可視化を生成する。さらに、我々のフレームワークは視線追跡装置を必要とせず、既存のデータセットに直接適用する。これらの結果から、人間の知覚的先行性は、タスク性能とシステム解釈性の両方を改善しながら、ロボット学習を著しく加速させることができることが示された。

関連論文リスト

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文参考訳（メタデータ） (2025-12-03T12:14:29Z)
Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey [13.43815806675263]
VLA(Vision-Language-Action)モデルは、自然言語の指示と視覚的な観察をロボットの行動にマッピングすることで、視覚言語モデルを拡張し、制御を具体化する。これらの能力にもかかわらず、VLAシステムは膨大な計算とメモリ要求のために重大な課題に直面している。
論文参考訳（メタデータ） (2025-10-20T02:59:45Z)
Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文参考訳（メタデータ） (2025-08-30T03:01:57Z)
Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers [2.736848514829367]
人間の視覚は視線によって駆動される非常に活発なプロセスであり、ファベーションを通じてタスク関連領域に注意を向ける。本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率性とロバスト性を高める方法について検討する。我々は人間の頭と首の動きをエミュレートするロボットビジョンシステムであるGIAVAを開発し、ファーベレート処理のための視線調整を行う。
論文参考訳（メタデータ） (2025-07-21T17:44:10Z)
ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文参考訳（メタデータ） (2025-06-16T16:34:20Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。