論文の概要: Latent Action Learning Requires Supervision in the Presence of Distractors
- arxiv url: http://arxiv.org/abs/2502.00379v1
- Date: Sat, 01 Feb 2025 09:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:53.73487
- Title: Latent Action Learning Requires Supervision in the Presence of Distractors
- Title(参考訳): 潜在行動学習は, トラクタ存在下でのスーパービジョンを必要とする
- Authors: Alexander Nikulin, Ilya Zisman, Denis Tarasov, Nikita Lyubaykin, Andrei Polubarov, Igor Kiselev, Vladislav Kurenkov,
- Abstract要約: 実世界のビデオには、潜在的なアクション学習を妨げるアクション関連障害が含まれていることが示されています。
LAOMは,潜伏動作の質を8倍に向上する簡易なLAPO修正法である。
我々は、潜在アクション学習中のデータセット全体の2.5%にも満たない、地道的なアクションによる監視を提供することで、下流のパフォーマンスが平均4.2倍向上することを示した。
- 参考スコア(独自算出の注目度): 40.33684677920241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, latent action learning, pioneered by Latent Action Policies (LAPO), have shown remarkable pre-training efficiency on observation-only data, offering potential for leveraging vast amounts of video available on the web for embodied AI. However, prior work has focused on distractor-free data, where changes between observations are primarily explained by ground-truth actions. Unfortunately, real-world videos contain action-correlated distractors that may hinder latent action learning. Using Distracting Control Suite (DCS) we empirically investigate the effect of distractors on latent action learning and demonstrate that LAPO struggle in such scenario. We propose LAOM, a simple LAPO modification that improves the quality of latent actions by 8x, as measured by linear probing. Importantly, we show that providing supervision with ground-truth actions, as few as 2.5% of the full dataset, during latent action learning improves downstream performance by 4.2x on average. Our findings suggest that integrating supervision during Latent Action Models (LAM) training is critical in the presence of distractors, challenging the conventional pipeline of first learning LAM and only then decoding from latent to ground-truth actions.
- Abstract(参考訳): 最近、LAPO(Latent Action Policies)が先駆した潜在アクション学習は、観察のみのデータに対して、目覚ましい事前学習効率を示しており、Web上で利用可能な大量のビデオを活用する可能性を秘めている。
しかし、それまでの研究は、観測間の変化が主に地道的な行動によって説明される、散逸のないデータに重点を置いてきた。
残念なことに、実世界のビデオには、潜在性のあるアクション学習を妨げるアクション関連インタラプターが含まれている。
本研究では,Distracting Control Suite (DCS) を用いた遅延動作学習におけるトラクタの効果を実証的に検討し,LAPOがそのようなシナリオに苦しむことを示す。
線形探索によって測定された遅延動作の質を8倍に向上する簡易なLAPO修正であるLAOMを提案する。
重要なことは、潜在アクション学習中に、全データセットの2.5%まで、地道なアクションを監督することで、平均4.2倍のダウンストリーム性能が向上することである。
この結果から,潜伏行動モデル(LAM)トレーニングにおける監視の統合は,注意散在者の存在において重要であり,初等学習の従来のパイプラインに挑戦し,潜伏行動から地道行動への復号に留まることが示唆された。
関連論文リスト
- NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [34.806610134389366]
NoisyRolloutは、きれいな画像と適度に歪んだ画像の両方の軌跡を混合する強化学習アプローチである。
視覚知覚における標的の多様性と結果の推論パターンを導入している。
NoisyRolloutは5つのベンチマークで、オープンソースのRLチューニングモデルの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。
無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。
Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - ACT-JEPA: Joint-Embedding Predictive Architecture Improves Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Reinforcement Learning from Delayed Observations via World Models [10.298219828693489]
強化学習環境では、エージェントはそれらを取るとすぐに行動の効果についてのフィードバックを受ける。
実際には、この仮定は物理的制約のために当てはまらない可能性があり、学習アルゴリズムの性能に大きな影響を及ぼす可能性がある。
本稿では、過去の観測と学習のダイナミクスを統合することに成功している世界モデルを活用して、観測遅延を処理することを提案する。
論文 参考訳(メタデータ) (2024-03-18T23:18:27Z) - Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss [61.355272240758]
Premier-TACOはマルチタスクの特徴表現学習手法である。
シーケンシャルな意思決定タスクにおいて、数ショットのポリシー学習効率を改善するように設計されている。
論文 参考訳(メタデータ) (2024-02-09T05:04:40Z) - Learning to Act without Actions [15.244216478886543]
本稿では,ビデオから潜時行動情報を復元する手法であるLatent Action Policies (LAPO)を紹介する。
LAPOは観測された力学からのみ真の作用空間の構造を復元できる最初の方法である。
LAPOは、専門家レベルのポリシーに迅速に微調整可能な潜在アクションポリシーのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-12-17T20:39:54Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Leveraging Action Affinity and Continuity for Semi-supervised Temporal
Action Segmentation [24.325716686674042]
本稿では,時間的行動分割タスクに対する半教師付き学習手法を提案する。
このタスクの目的は、長い、トリミングされていないプロシージャビデオにおいて、時間的にアクションを検出し、セグメント化することである。
本稿では,非競合データに対して,アクション親和性損失とアクション連続性損失の2つの新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-07-18T14:52:37Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。