Fugu-MT 論文翻訳(概要): Auto-Encoding Adversarial Imitation Learning

論文の概要: Auto-Encoding Adversarial Imitation Learning

arxiv url: http://arxiv.org/abs/2206.11004v3
Date: Tue, 8 Aug 2023 05:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 17:52:13.765658
Title: Auto-Encoding Adversarial Imitation Learning
Title（参考訳）: 敵対的模倣学習の自動エンコーディング
Authors: Kaifeng Zhang, Rui Zhao, Ziming Zhang, Yang Gao
Abstract要約: AIL(Adversarial Imitation Learning)は、環境からの報酬信号にアクセスせずに自動ポリシー取得に光を当てる。 AEAILは、デモンストレーションから専門家ポリシーを誘導するために、オートエンコーダの再構成エラーを報奨信号として利用する。 AEAILは、専門家によるデモンストレーションが騒々しいときに、はるかに優れた堅牢性を示す。
参考スコア（独自算出の注目度）: 23.544014883238685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) provides a powerful framework for decision-making, but its application in practice often requires a carefully designed reward function. Adversarial Imitation Learning (AIL) sheds light on automatic policy acquisition without access to the reward signal from the environment. In this work, we propose Auto-Encoding Adversarial Imitation Learning (AEAIL), a robust and scalable AIL framework. To induce expert policies from demonstrations, AEAIL utilizes the reconstruction error of an auto-encoder as a reward signal, which provides more information for optimizing policies than the prior discriminator-based ones. Subsequently, we use the derived objective functions to train the auto-encoder and the agent policy. Experiments show that our AEAIL performs superior compared to state-of-the-art methods on both state and image based environments. More importantly, AEAIL shows much better robustness when the expert demonstrations are noisy.
Abstract（参考訳）: 強化学習(rl)は意思決定のための強力なフレームワークを提供するが、実際には注意深く設計された報酬機能を必要とすることが多い。 AIL(Adversarial Imitation Learning)は、環境からの報酬信号にアクセスせずに自動ポリシー取得に光を当てる。本稿では,堅牢でスケーラブルな AIL フレームワークである Auto-Encoding Adversarial Imitation Learning (AEAIL) を提案する。 AEAILは、実証から専門家ポリシーを誘導するため、オートエンコーダの再構成エラーを報奨信号として利用し、従来の差別者ベースのものよりも、ポリシーを最適化するための情報を提供する。その後、導出した目的関数を用いてオートエンコーダとエージェントポリシーを訓練する。実験の結果,AEAILは現状および画像ベース環境において,最先端の手法よりも優れていることがわかった。さらに重要なのは、AEAILは、専門家によるデモが騒々しいときに、はるかに優れた堅牢性を示します。

関連論文リスト

RLAF: Reinforcement Learning from Automaton Feedback [8.266016076430516]
複雑で歴史に依存した報酬構造を持つ環境における強化学習(RL)は、従来の手法に重大な課題をもたらす。本稿では,学習プロセスの指導にオートマトンに基づくフィードバックを活用する新しいアプローチを提案し,決定論的有限オートマトン(DFA)から導出される選好に,明示的な報酬関数を置き換える。本研究は,非マルコフ報酬の処理において,オートマトンに基づく選好の利点を強調し,従来の報酬モデルに代わる,スケーラブルで効率的で人間に依存しない代替手段を提供する。
論文参考訳（メタデータ） (2025-10-17T15:17:01Z)
PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer [54.06481630066739]
ビデオ異常検出(VAD)は、現実のシナリオの複雑で多様な性質のため、重要な課題である。以前の方法は、新しいシナリオや見えない異常タイプに適用する場合、ドメイン固有のトレーニングデータと手動の調整に依存していた。本研究では,MLLMに基づくエージェントAI技術者であるPANDAを提案する。
論文参考訳（メタデータ） (2025-09-30T15:19:43Z)
Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning [1.607353805620917]
不完全かつ不完全であっても、専門家によるデモンストレーションを効果的に活用できるフレームワークを提案する。私たちはMixturecoder Autoen Expertsを使って、デモでさまざまな振る舞いや不足した情報をキャプチャします。
論文参考訳（メタデータ） (2025-07-21T06:38:46Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Towards a Reward-Free Reinforcement Learning Framework for Vehicle Control [1.5883812630616523]
強化学習は、最適な制御戦略を学ぶためのエージェントを導くことによって、車両制御において重要な役割を担っている。車両制御アプリケーションでは、通常、報酬は複数の暗黙的要因を考慮して手動で設計する必要がある。本稿では,これらの問題に対処するためのRFRLF(Regend-free Regressed Learning framework)を提案する。
論文参考訳（メタデータ） (2025-02-21T07:43:24Z)
CuRLA: Curriculum Learning Based Deep Reinforcement Learning for Autonomous Driving [1.188383832081829]
深層強化学習(DRL)エージェントは、経験から学び、報酬を最大化する。本稿では,DRLとカリキュラム学習を組み合わせた自動運転手法を提案する。
論文参考訳（メタデータ） (2025-01-09T05:45:03Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文参考訳（メタデータ） (2023-09-19T17:39:20Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文参考訳（メタデータ） (2021-06-03T16:45:40Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Increasing the Efficiency of Policy Learning for Autonomous Vehicles by Multi-Task Representation Learning [17.825845543579195]
関連する意味的要因の知識を活用し,環境の低次元かつ豊かな潜在表現を学ぶことを提案する。また,ダウンストリームポリシの入力として,学習した潜在表現に加えて,ハザード信号を提案する。特に、提案された表現学習とハザード信号は、ベースラインメソッドよりもパフォーマンスの向上とデータの削減により、学習の学習を迅速に強化するのに役立ちます。
論文参考訳（メタデータ） (2021-03-26T20:16:59Z)
Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文参考訳（メタデータ） (2021-02-01T14:07:11Z)
Forgetful Experience Replay in Hierarchical Reinforcement Learning from Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文参考訳（メタデータ） (2020-06-17T15:38:40Z)
Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-03T16:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。