論文の概要: Autonomous Learning of Features for Control: Experiments with Embodied
and Situated Agents
- arxiv url: http://arxiv.org/abs/2009.07132v1
- Date: Tue, 15 Sep 2020 14:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:30:58.222205
- Title: Autonomous Learning of Features for Control: Experiments with Embodied
and Situated Agents
- Title(参考訳): 制御機能の自律学習--身体的・位置的エージェントを用いた実験
- Authors: Nicola Milano, Stefano Nolfi
- Abstract要約: 本稿では,ポリシネットワークのトレーニング中に特徴抽出モジュールのトレーニングを継続する手法を提案する。
シーケンス・ツー・シークエンス・ラーニング(Sequence-to-Sequence Learning)は,従来の研究方法よりも優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As discussed in previous studies, the efficacy of evolutionary or
reinforcement learning algorithms for continuous control optimization can be
enhanced by including a neural module dedicated to feature extraction trained
through self-supervised methods. In this paper we report additional experiments
supporting this hypothesis and we demonstrate how the advantage provided by
feature extraction is not limited to problems that benefit from dimensionality
reduction or that involve agents operating on the basis of allocentric
perception. We introduce a method that permits to continue the training of the
feature-extraction module during the training of the policy network and that
increases the efficacy of feature extraction. Finally, we compare alternative
feature-extracting methods and we show that sequence-to-sequence learning
yields better results than the methods considered in previous studies.
- Abstract(参考訳): 前述したように、進化的あるいは強化的学習アルゴリズムによる継続的制御最適化の有効性は、自己教師付き手法で訓練された特徴抽出に特化したニューラルモジュールを含めることで向上することができる。
本稿では,この仮説を支持する追加実験を報告し,特徴抽出によって得られる利点が,次元減少の恩恵を受ける問題や,同心性知覚に基づいて作用するエージェントに限らないことを示す。
本稿では,ポリシネットワークのトレーニング中に機能抽出モジュールのトレーニングを継続し,特徴抽出の有効性を高める手法を提案する。
最後に,選択特徴抽出法を比較し,シーケンスからシーケンスへの学習が先行研究で検討した方法よりも優れた結果が得られることを示す。
関連論文リスト
- Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations [9.240917262195046]
本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
論文 参考訳(メタデータ) (2024-02-29T03:53:02Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Nonparametric Additive Value Functions: Interpretable Reinforcement
Learning with an Application to Surgical Recovery [8.890206493793878]
強化学習における解釈可能な値関数を推定するための非パラメトリック加算モデルを提案する。
提案手法をシミュレーション研究により検証し, 脊椎疾患への応用として, 臨床知識に根ざしたリカバリレコメンデーションを明らかにする。
論文 参考訳(メタデータ) (2023-08-25T02:05:51Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Unsupervised feature selection via self-paced learning and low-redundant
regularization [6.083524716031565]
自己評価学習とサブスペース学習の枠組みを統合することにより,教師なしの特徴選択を提案する。
この手法の収束性は理論的および実験的に証明される。
実験の結果,提案手法はクラスタリング法の性能を向上し,他の比較アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T08:28:19Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Automatic Data Augmentation via Deep Reinforcement Learning for
Effective Kidney Tumor Segmentation [57.78765460295249]
医用画像セグメンテーションのための新しい学習ベースデータ拡張法を開発した。
本手法では,データ拡張モジュールと後続のセグメンテーションモジュールをエンドツーエンドのトレーニング方法で一貫した損失と,革新的に組み合わせる。
提案法の有効性を検証したCT腎腫瘍分節法について,本法を広範囲に評価した。
論文 参考訳(メタデータ) (2020-02-22T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。