論文の概要: Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills
- arxiv url: http://arxiv.org/abs/2303.15349v2
- Date: Tue, 31 Oct 2023 14:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:30:23.829109
- Title: Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills
- Title(参考訳): 情報最大化カリキュラム: 多様なスキルを模倣するためのカリキュラムベースアプローチ
- Authors: Denis Blessing, Onur Celik, Xiaogang Jia, Moritz Reuss, Maximilian
Xiling Li, Rudolf Lioutikov, Gerhard Neumann
- Abstract要約: 本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
- 参考スコア(独自算出の注目度): 14.685043874797742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning uses data for training policies to solve complex tasks.
However, when the training data is collected from human demonstrators, it often
leads to multimodal distributions because of the variability in human actions.
Most imitation learning methods rely on a maximum likelihood (ML) objective to
learn a parameterized policy, but this can result in suboptimal or unsafe
behavior due to the mode-averaging property of the ML objective. In this work,
we propose Information Maximizing Curriculum, a curriculum-based approach that
assigns a weight to each data point and encourages the model to specialize in
the data it can represent, effectively mitigating the mode-averaging problem by
allowing the model to ignore data from modes it cannot represent. To cover all
modes and thus, enable diverse behavior, we extend our approach to a mixture of
experts (MoE) policy, where each mixture component selects its own subset of
the training data for learning. A novel, maximum entropy-based objective is
proposed to achieve full coverage of the dataset, thereby enabling the policy
to encompass all modes within the data distribution. We demonstrate the
effectiveness of our approach on complex simulated control tasks using diverse
human demonstrations, achieving superior performance compared to
state-of-the-art methods.
- Abstract(参考訳): 模倣学習は、複雑なタスクを解決するためにトレーニングポリシーにデータを使用する。
しかしながら、トレーニングデータが人間のデモレーターから収集されると、人間の行動の多様性のため、しばしばマルチモーダルな分布につながる。
ほとんどの模倣学習法は、パラメータ化されたポリシーを学習するために、最大可能性(ML)の目的に依存しているが、これはMLの目的のモードを持つ性質によって、最適または安全でない振る舞いをもたらす可能性がある。
本研究では,各データポイントに重みを割り当て,モデルが表現可能なデータに特化することを奨励するカリキュラムベースの手法である情報最大化カリキュラムを提案する。
すべてのモードをカバーするため、多様な振る舞いを可能にするために、我々は、それぞれの混合コンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する専門家(moe)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために、データ分散内のすべてのモードを包含する、新しい、最大エントロピーベースの目的が提案されている。
本研究では,多種多様な人間の実演を用いた複雑なシミュレーション制御タスクに対するアプローチの有効性を示す。
関連論文リスト
- PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Curriculum-Based Imitation of Versatile Skills [15.97723808124603]
模倣による学習スキルは、ロボットの直感的な教育にとって有望な概念である。
このようなスキルを学ぶ一般的な方法は、デモが与えられた可能性の最大化によってパラメトリックモデルを学ぶことである。
しかし、人間のデモンストレーションはしばしばマルチモーダルであり、同じタスクは複数の方法で解決される。
論文 参考訳(メタデータ) (2023-04-11T12:10:41Z) - Multi-model Ensemble Learning Method for Human Expression Recognition [31.76775306959038]
本研究では,大量の実生活データを収集するアンサンブル学習法に基づく手法を提案する。
ABAW2022 ChallengeのAffWild2データセット上で多くの実験を行い、本ソリューションの有効性を実証した。
論文 参考訳(メタデータ) (2022-03-28T03:15:06Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Maximum Likelihood Estimation for Multimodal Learning with Missing
Modality [10.91899856969822]
そこで本研究では,モダリティ欠落データに知識を組み込むために,最大推定値に基づく効率的な手法を提案する。
トレーニングデータの95%がモダリティを欠いている場合でも,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-08-24T03:50:54Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。