論文の概要: Learning to Act Robustly with View-Invariant Latent Actions
- arxiv url: http://arxiv.org/abs/2601.02994v1
- Date: Tue, 06 Jan 2026 13:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.940314
- Title: Learning to Act Robustly with View-Invariant Latent Actions
- Title(参考訳): ビュー不変潜在行動でロバストに行動する学習
- Authors: Youngjoon Jeong, Junha Chun, Taesup Kim,
- Abstract要約: 視覚に基づくロボットポリシーは、視界不変の視覚表現の必要性を強調し、小さな視点の変化に苦しむことが多い。
本研究では,ビュー不変遅延行動 (VILA) を提案する。これは,物理力学に基づくビュー不変表現を学習するために,トラジェクトリ間で遷移パターンをキャプチャする潜在動作をモデル化する。
シミュレーションと実世界の双方の実験から、VILAベースのポリシーは見当たらない視点に効果的に一般化し、新しいタスクにうまく移行することが示された。
- 参考スコア(独自算出の注目度): 8.446887947386559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based robotic policies often struggle with even minor viewpoint changes, underscoring the need for view-invariant visual representations. This challenge becomes more pronounced in real-world settings, where viewpoint variability is unavoidable and can significantly disrupt policy performance. Existing methods typically learn invariance from multi-view observations at the scene level, but such approaches rely on visual appearance and fail to incorporate the physical dynamics essential for robust generalization. We propose View-Invariant Latent Action (VILA), which models a latent action capturing transition patterns across trajectories to learn view-invariant representations grounded in physical dynamics. VILA aligns these latent actions across viewpoints using an action-guided objective based on ground-truth action sequences. Experiments in both simulation and the real world show that VILA-based policies generalize effectively to unseen viewpoints and transfer well to new tasks, establishing VILA as a strong pretraining framework that improves robustness and downstream learning performance.
- Abstract(参考訳): 視覚に基づくロボットポリシーは、視界不変の視覚表現の必要性を強調し、小さな視点の変化に苦しむことが多い。
この課題は、視点変数が避けられず、政策パフォーマンスを著しく破壊する現実世界の設定においてより顕著になる。
既存の手法は通常、シーンレベルでの多視点観察から不変性を学ぶが、このようなアプローチは視覚的外観に依存し、堅牢な一般化に不可欠な物理力学を組み込むことができない。
本研究では,ビュー不変遅延行動 (VILA) を提案する。これは,物理力学に基づくビュー不変表現を学習するために,トラジェクトリ間で遷移パターンをキャプチャする潜在動作をモデル化する。
VILAは、これらの潜伏動作を、地道行動列に基づく行動誘導目標を用いて視点に整列する。
シミュレーションと実世界の両方の実験により、VILAベースのポリシーは、目立たない視点に効果的に一般化し、新しいタスクにうまく移行し、ロバスト性や下流学習性能を改善する強力な事前学習フレームワークとしてVILAを確立した。
関連論文リスト
- Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues [69.24378760740171]
本稿では,乱れたシーンにおけるロバスト性の欠如に対する解決策として,ビジュモータ・ポリシー・プールについて考察する。
AFA(Attentive Feature Aggregation)は、タスク関連視覚的キューに自然に出席することを学ぶ軽量でトレーニング可能なプール機構である。
以上の結果から,視覚情報を無視することは,堅牢で汎用的な視覚運動ポリシーの展開に向けた重要なステップであることが示唆された。
論文 参考訳(メタデータ) (2025-11-13T19:31:05Z) - VisionLaw: Inferring Interpretable Intrinsic Dynamics from Visual Observations via Bilevel Optimization [3.131272328696594]
VisionLawは、視覚的な観察から固有の力学の解釈可能な表現を推論する二段階最適化フレームワークである。
既存の最先端手法を著しく上回り、新しいシナリオにおける対話型シミュレーションの強力な一般化を示す。
論文 参考訳(メタデータ) (2025-08-19T12:52:16Z) - Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation [16.863534382288705]
本研究では,未来の状態を共同で予測し,歴史的軌跡に基づく動的変動に適応して行動学習を促進する新しい枠組みを提案する。
DyWAは実世界の実験で平均68%の成功率を達成した。
論文 参考訳(メタデータ) (2025-03-21T02:29:52Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。