論文の概要: TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion
- arxiv url: http://arxiv.org/abs/2503.20839v2
- Date: Thu, 14 Aug 2025 17:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 15:52:16.787269
- Title: TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion
- Title(参考訳): TAR:四足歩行のコントラスト学習による教師対応表現
- Authors: Amr Mousa, Neil Karavis, Michele Caprio, Wei Pan, Richard Allmendinger,
- Abstract要約: 強化学習(Reinforcement Learning, RL)による四足歩行運動は、教師/学生のパラダイムを用いて一般的に解決される。
本稿では,自己指導型コントラスト学習による特権情報を活用したTAR(Teacher-Aligned Representations)を提案する。
その結果,最先端のベースラインに比べて2倍のトレーニングが促進され,ピーク性能が得られた。
- 参考スコア(独自算出の注目度): 3.1194372040101928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quadrupedal locomotion via Reinforcement Learning (RL) is commonly addressed using the teacher-student paradigm, where a privileged teacher guides a proprioceptive student policy. However, key challenges such as representation misalignment between privileged teacher and proprioceptive-only student, covariate shift due to behavioral cloning, and lack of deployable adaptation; lead to poor generalization in real-world scenarios. We propose Teacher-Aligned Representations via Contrastive Learning (TAR), a framework that leverages privileged information with self-supervised contrastive learning to bridge this gap. By aligning representations to a privileged teacher in simulation via contrastive objectives, our student policy learns structured latent spaces and exhibits robust generalization to Out-of-Distribution (OOD) scenarios, surpassing the fully privileged "Teacher". Results showed accelerated training by 2x compared to state-of-the-art baselines to achieve peak performance. OOD scenarios showed better generalization by 40% on average compared to existing methods. Moreover, TAR transitions seamlessly into learning during deployment without requiring privileged states, setting a new benchmark in sample-efficient, adaptive locomotion and enabling continual fine-tuning in real-world scenarios. Open-source code and videos are available at https://amrmousa.com/TARLoco/.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)による四足歩行運動は、特権教師が保護的学生政策を指導する教師/学生のパラダイムを用いて一般的に解決される。
しかし、特権教師とプロプライオセプティヴ・オンリーの学生との相違、行動クローンによる共変量シフト、デプロイ可能な適応の欠如といった重要な課題は、現実のシナリオにおける一般化の欠如に繋がる。
本稿では,このギャップを埋めるために,自己教師付きコントラスト学習による特権情報を活用したTAR(Teacher-Aligned Representations)を提案する。
学生政策は, 教師の表現を, 比較対象を通したシミュレーションで表わすことによって, 構造化された潜伏空間を学習し, 教職員を超越して, アウト・オブ・ディストリビューション(OOD)のシナリオに頑健な一般化を示す。
その結果,最先端のベースラインに比べて2倍のトレーニングが促進され,ピーク性能が得られた。
OODシナリオは,既存手法と比較して平均40%の一般化が得られた。
さらに、TARは特権状態を必要としないデプロイメント中の学習にシームレスに移行し、サンプル効率で適応的なロコモーションで新しいベンチマークを設定し、現実世界のシナリオで連続的な微調整を可能にする。
オープンソースコードとビデオはhttps://amrmousa.com/TARLoco/.comで公開されている。
関連論文リスト
- Distilling Realizable Students from Unrealizable Teachers [9.968083244726941]
特権情報に基づく政策蒸留について検討し, 一部観察のみの学生政策は, フルステートアクセスの教師から学ぶ必要がある。
既存のアプローチでは、教師が実現可能ではあるが準最適のデモを作成するように変更するか、または学生に頼って、欠落した情報を独立して調査する。
i) 学生が教師に補正を問い合わせるべき時期を適応的に決定する模倣学習手法と, (ii) 効率的な探索のためにトレーニングを初期化する場所を選択する強化学習手法を導入する。
論文 参考訳(メタデータ) (2025-05-14T16:45:51Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios [3.638198517970729]
実証から学ぶことは、類似エージェントでシステムを訓練する効果的な方法である。
しかし、生徒の能力の限界から外れたデモを自然に複製することは、効率的な学習を制限することができる。
本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T05:52:42Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - DriveAdapter: Breaking the Coupling Barrier of Perception and Planning
in End-to-End Autonomous Driving [64.57963116462757]
最先端の手法は通常、教師-学生のパラダイムに従う。
学生モデルは、生のセンサーデータのみにアクセスし、教師モデルによって収集されたデータに基づいて行動クローニングを行う。
本稿では,学生(知覚)と教師(計画)モジュール間の機能アライメント目的関数を持つアダプタを用いたDriveAdapterを提案する。
論文 参考訳(メタデータ) (2023-08-01T09:21:53Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Temporal Knowledge Consistency for Unsupervised Visual Representation
Learning [10.461486621654556]
まず、インスタンスの時間的一貫性を現在のインスタンス識別パラダイムに統合し、TKC(Temporal Knowledge Consistency)という新しい強力なアルゴリズムを提案する。
我々のTKCは、時間的教師の知識を動的にアンサンブルし、時間的整合性を学ぶことの重要性に応じて有用な情報を適応的に選択する。
実験の結果,TKCは線形評価プロトコル上でResNetとAlexNetの両方の視覚表現を学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-24T12:14:13Z) - The Wits Intelligent Teaching System: Detecting Student Engagement
During Lectures Using Convolutional Neural Networks [0.30458514384586394]
Wits Intelligent Teaching System (WITS) は、学生の感情に関するリアルタイムフィードバックを講師に支援することを目的としている。
AlexNetベースのCNNはトレーニングが成功し、Support Vector Machineアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-28T12:59:37Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。