Fugu-MT 論文翻訳(概要): TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion

論文の概要: TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion

arxiv url: http://arxiv.org/abs/2503.20839v1
Date: Wed, 26 Mar 2025 12:49:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.257791
Title: TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion
Title（参考訳）: TAR:四足歩行のコントラスト学習による教師対応表現
Authors: Amr Mousa, Neil Karavis, Michele Caprio, Wei Pan, Richard Allmendinger,
Abstract要約: 強化学習(Reinforcement Learning, RL)による四足歩行運動は、教師/学生のパラダイムを用いて一般的に解決される。本稿では,自己指導型コントラスト学習による特権情報を活用したTAR(Teacher-Aligned Representations)を提案する。その結果,最先端のベースラインに比べて2倍のトレーニングが促進され,ピーク性能が得られた。
参考スコア（独自算出の注目度）: 3.1194372040101928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quadrupedal locomotion via Reinforcement Learning (RL) is commonly addressed using the teacher-student paradigm, where a privileged teacher guides a proprioceptive student policy. However, key challenges such as representation misalignment between the privileged teacher and the proprioceptive-only student, covariate shift due to behavioral cloning, and lack of deployable adaptation lead to poor generalization in real-world scenarios. We propose Teacher-Aligned Representations via Contrastive Learning (TAR), a framework that leverages privileged information with self-supervised contrastive learning to bridge this gap. By aligning representations to a privileged teacher in simulation via contrastive objectives, our student policy learns structured latent spaces and exhibits robust generalization to Out-of-Distribution (OOD) scenarios, surpassing the fully privileged "Teacher". Results showed accelerated training by 2x compared to state-of-the-art baselines to achieve peak performance. OOD scenarios showed better generalization by 40 percent on average compared to existing methods. Additionally, TAR transitions seamlessly into learning during deployment without requiring privileged states, setting a new benchmark in sample-efficient, adaptive locomotion and enabling continual fine-tuning in real-world scenarios. Open-source code and videos are available at https://ammousa.github.io/TARLoco/.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)による四足歩行運動は、特権教師が保護的学生政策を指導する教師/学生のパラダイムを用いて一般的に解決される。しかし、特権教師とプロプリセプティヴ・オンリーの学生との相違、行動的クローン化による共変量シフト、デプロイ可能な適応の欠如といった重要な課題は、現実のシナリオにおける一般化の欠如につながっている。本稿では,このギャップを埋めるために,自己教師付きコントラスト学習による特権情報を活用したTAR(Teacher-Aligned Representations)を提案する。学生政策は, 教師の表現を, 比較対象を通したシミュレーションで表わすことによって, 構造化された潜伏空間を学習し, 教職員を超越して, アウト・オブ・ディストリビューション(OOD)のシナリオに頑健な一般化を示す。その結果,最先端のベースラインに比べて2倍のトレーニングが促進され,ピーク性能が得られた。 OODシナリオは,既存手法と比較して平均40%の一般化が得られた。さらに、TARは特権状態を必要としないデプロイメント中の学習にシームレスに移行し、サンプル効率で適応的なロコモーションで新しいベンチマークを設定し、現実世界のシナリオで継続的な微調整を可能にする。オープンソースコードとビデオはhttps://ammousa.github.io/TARLoco/.comで公開されている。

関連論文リスト

"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。 CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文参考訳（メタデータ） (2026-01-20T14:05:19Z)
Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-01-12T02:57:39Z)
UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文参考訳（メタデータ） (2025-11-12T01:27:02Z)
Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training [105.74524789405514]
対人訓練(AT)は、現在、ニューラルネットワークに対する最も効果的な防御である。本稿では,汎用化目標を複数のサブタスクに分割し,それぞれを専用のベースラーナに割り当てる。トレーニングの後半では、これらのパラメータを補間して、知識のあるグローバルな学習者を形成する。このフレームワークをGeneralistと呼び、異なるアプリケーションシナリオに適した3つのバリエーションを紹介します。
論文参考訳（メタデータ） (2025-10-15T09:47:54Z)
DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文参考訳（メタデータ） (2025-10-14T03:19:15Z)
Distilling Realizable Students from Unrealizable Teachers [9.968083244726941]
特権情報に基づく政策蒸留について検討し, 一部観察のみの学生政策は, フルステートアクセスの教師から学ぶ必要がある。既存のアプローチでは、教師が実現可能ではあるが準最適のデモを作成するように変更するか、または学生に頼って、欠落した情報を独立して調査する。 i) 学生が教師に補正を問い合わせるべき時期を適応的に決定する模倣学習手法と, (ii) 効率的な探索のためにトレーニングを初期化する場所を選択する強化学習手法を導入する。
論文参考訳（メタデータ） (2025-05-14T16:45:51Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios [3.638198517970729]
実証から学ぶことは、類似エージェントでシステムを訓練する効果的な方法である。しかし、生徒の能力の限界から外れたデモを自然に複製することは、効率的な学習を制限することができる。本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-23T05:52:42Z)
STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文参考訳（メタデータ） (2024-04-20T07:56:21Z)
DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving [64.57963116462757]
最先端の手法は通常、教師-学生のパラダイムに従う。学生モデルは、生のセンサーデータのみにアクセスし、教師モデルによって収集されたデータに基づいて行動クローニングを行う。本稿では,学生(知覚)と教師(計画)モジュール間の機能アライメント目的関数を持つアダプタを用いたDriveAdapterを提案する。
論文参考訳（メタデータ） (2023-08-01T09:21:53Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Distantly-Supervised Named Entity Recognition with Adaptive Teacher Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文参考訳（メタデータ） (2022-12-13T12:14:09Z)
Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。知識蒸留は教師から知識を抽出し、対象モデルと統合する。教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文参考訳（メタデータ） (2022-05-04T06:49:47Z)
Temporal Knowledge Consistency for Unsupervised Visual Representation Learning [10.461486621654556]
まず、インスタンスの時間的一貫性を現在のインスタンス識別パラダイムに統合し、TKC(Temporal Knowledge Consistency)という新しい強力なアルゴリズムを提案する。我々のTKCは、時間的教師の知識を動的にアンサンブルし、時間的整合性を学ぶことの重要性に応じて有用な情報を適応的に選択する。実験の結果,TKCは線形評価プロトコル上でResNetとAlexNetの両方の視覚表現を学習できることがわかった。
論文参考訳（メタデータ） (2021-08-24T12:14:13Z)
The Wits Intelligent Teaching System: Detecting Student Engagement During Lectures Using Convolutional Neural Networks [0.30458514384586394]
Wits Intelligent Teaching System (WITS) は、学生の感情に関するリアルタイムフィードバックを講師に支援することを目的としている。 AlexNetベースのCNNはトレーニングが成功し、Support Vector Machineアプローチを大きく上回っている。
論文参考訳（メタデータ） (2021-05-28T12:59:37Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。