論文の概要: When Pre-trained Visual Representations Fall Short: Limitations in Visuo-Motor Robot Learning
- arxiv url: http://arxiv.org/abs/2502.03270v1
- Date: Wed, 05 Feb 2025 15:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:12.753182
- Title: When Pre-trained Visual Representations Fall Short: Limitations in Visuo-Motor Robot Learning
- Title(参考訳): トレーニング済みの視覚表現が短くなったとき--ビジュオ運動ロボット学習における限界-
- Authors: Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier, Chris Xiaoxuan Lu, Oisin Mac Aodha,
- Abstract要約: トレーニング済みの視覚表現を視覚運動ロボット学習に統合することは、視覚エンコーダをゼロから訓練するための有望な代替手段として登場した。
PVRは、時間的絡み合いや、小さなシーンの摂動があっても一般化できないなど、政策学習の文脈において重要な課題に直面している。
本研究は、これらの欠点を特定し、対処するための解決策を提案する。まず、時間的知覚とタスク完了の感覚でPVR機能を増強し、効果的に時間内にそれらを切り離す。
第2に,タスク関連ローカル機能への選択的参加を学習するモジュールを導入し,アウト・オブ・ディストリビューション(out-of-distribution)の評価においてロバスト性を高める。
- 参考スコア(独自算出の注目度): 19.394253159981577
- License:
- Abstract: The integration of pre-trained visual representations (PVRs) into visuo-motor robot learning has emerged as a promising alternative to training visual encoders from scratch. However, PVRs face critical challenges in the context of policy learning, including temporal entanglement and an inability to generalise even in the presence of minor scene perturbations. These limitations hinder performance in tasks requiring temporal awareness and robustness to scene changes. This work identifies these shortcomings and proposes solutions to address them. First, we augment PVR features with temporal perception and a sense of task completion, effectively disentangling them in time. Second, we introduce a module that learns to selectively attend to task-relevant local features, enhancing robustness when evaluated on out-of-distribution scenes. Our experiments demonstrate significant performance improvements, particularly in PVRs trained with masking objectives, and validate the effectiveness of our enhancements in addressing PVR-specific limitations.
- Abstract(参考訳): トレーニング済みの視覚表現(PVR)をヴィジュオ運動ロボット学習に統合することは、視覚エンコーダをスクラッチからトレーニングするための有望な代替手段として登場した。
しかし、PVRは、時間的絡み合いや、小さなシーンの摂動があっても一般化できないなど、政策学習の文脈において重要な課題に直面している。
これらの制限は、シーンの変更に対して時間的認識と堅牢性を必要とするタスクのパフォーマンスを妨げます。
この研究はこれらの欠点を特定し、対処する解決策を提案する。
まず、時間的知覚とタスク完了感でPVR機能を増強し、時間内に効果的に切り離す。
第2に,タスク関連ローカル機能への選択的参加を学習するモジュールを導入し,アウト・オブ・ディストリビューションシーンにおけるロバスト性を向上させる。
本実験は,特にマスキング目標を訓練したPVRにおいて,顕著な性能向上を示すとともに,PVR固有の制限に対処する上での有効性を検証した。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。
本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing [12.930814370829893]
本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。
既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。
本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:35:20Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。