論文の概要: Divide and Repair: Using Options to Improve Performance of Imitation
Learning Against Adversarial Demonstrations
- arxiv url: http://arxiv.org/abs/2306.04581v1
- Date: Wed, 7 Jun 2023 16:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:24:27.402402
- Title: Divide and Repair: Using Options to Improve Performance of Imitation
Learning Against Adversarial Demonstrations
- Title(参考訳): ディバイドと修復: 対人デモに対する模倣学習のパフォーマンス向上のためのオプションの使用
- Authors: Prithviraj Dasgupta
- Abstract要約: 本研究では,教師や専門家による実演から課題を遂行する上での学習の課題について考察する。
専門家のデモのいくつかは敵意があり、そのタスクを実行する誤った方法を示しているかもしれない。
提案手法は, 敵に十分に修正されていない軌道の部品を識別する手法である。
- 参考スコア(独自算出の注目度): 0.6853165736531939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning to perform a task from demonstrations
given by teachers or experts, when some of the experts' demonstrations might be
adversarial and demonstrate an incorrect way to perform the task. We propose a
novel technique that can identify parts of demonstrated trajectories that have
not been significantly modified by the adversary and utilize them for learning,
using temporally extended policies or options. We first define a trajectory
divergence measure based on the spatial and temporal features of demonstrated
trajectories to detect and discard parts of the trajectories that have been
significantly modified by an adversarial expert, and, could degrade the
learner's performance, if used for learning, We then use an options-based
algorithm that partitions trajectories and learns only from the parts of
trajectories that have been determined as admissible. We provide theoretical
results of our technique to show that repairing partial trajectories improves
the sample efficiency of the demonstrations without degrading the learner's
performance. We then evaluate the proposed algorithm for learning to play an
Atari-like, computer-based game called LunarLander in the presence of different
types and degrees of adversarial attacks of demonstrated trajectories. Our
experimental results show that our technique can identify adversarially
modified parts of the demonstrated trajectories and successfully prevent the
learning performance from degrading due to adversarial demonstrations.
- Abstract(参考訳): 本研究では,教師や専門家による実演からタスクを実行することの難しさについて考察する。
提案手法は,敵対者によって著しく修正されていない軌道の一部を識別し,時間的に拡張されたポリシーやオプションを用いて学習に活用する手法である。
まず,実験対象の軌跡の空間的特徴と時間的特徴に基づいて,対象とする軌跡の一部を検出・破棄し,学習に用いた場合,学習者の性能を劣化させることのできる軌跡の空間的・時間的特性に基づいて,選択肢に基づくアルゴリズムを用いて,許容可能な軌跡の部分のみから学習する。
提案手法の理論的結果は,学習者の性能を劣化させることなく,部分軌道の修復が実演のサンプル効率を向上させることを示すものである。
そこで,提案手法は,実演されたトラジェクタに対して,異なる種類の攻撃や攻撃の程度が存在する場合に,アタリのようなコンピュータベースのゲームであるルナランダーをプレイすることを学ぶためのものである。
実験結果から,本手法は実演軌跡の逆修正部分を同定し,逆行実験による学習性能の劣化を防止できることが示唆された。
関連論文リスト
- "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Exploiting Fairness to Enhance Sensitive Attributes Reconstruction [0.0]
近年、公正な制約の下で機械学習モデルを学習する方法に関する研究が増えている。
本研究では,このモデルの公正性に関する情報を敵に活用して,トレーニングデータの感度特性の再構築を促進できることを示す。
本稿では,初期推定を入力とし,ユーザ定義制約に適合するように補正する汎用的な再構成補正手法を提案する。
論文 参考訳(メタデータ) (2022-09-02T06:15:15Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - On the Loss Landscape of Adversarial Training: Identifying Challenges
and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。
曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文 参考訳(メタデータ) (2020-06-15T13:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。