Fugu-MT 論文翻訳(概要): Inverse Reinforcement Learning with Sub-optimal Experts

論文の概要: Inverse Reinforcement Learning with Sub-optimal Experts

arxiv url: http://arxiv.org/abs/2401.03857v1
Date: Mon, 8 Jan 2024 12:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 16:48:11.839986
Title: Inverse Reinforcement Learning with Sub-optimal Experts
Title（参考訳）: 準最適専門家による逆強化学習
Authors: Riccardo Poiani, Gabriele Curti, Alberto Maria Metelli, Marcello Restelli
Abstract要約: 与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
参考スコア（独自算出の注目度）: 56.553106680769474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inverse Reinforcement Learning (IRL) techniques deal with the problem of deducing a reward function that explains the behavior of an expert agent who is assumed to act optimally in an underlying unknown task. In several problems of interest, however, it is possible to observe the behavior of multiple experts with different degree of optimality (e.g., racing drivers whose skills ranges from amateurs to professionals). For this reason, in this work, we extend the IRL formulation to problems where, in addition to demonstrations from the optimal agent, we can observe the behavior of multiple sub-optimal experts. Given this problem, we first study the theoretical properties of the class of reward functions that are compatible with a given set of experts, i.e., the feasible reward set. Our results show that the presence of multiple sub-optimal experts can significantly shrink the set of compatible rewards. Furthermore, we study the statistical complexity of estimating the feasible reward set with a generative model. To this end, we analyze a uniform sampling algorithm that results in being minimax optimal whenever the sub-optimal experts' performance level is sufficiently close to the one of the optimal agent.
Abstract（参考訳）: 逆強化学習(IRL)技術は、下層の未知のタスクにおいて最適に振る舞うと仮定される専門家エージェントの振る舞いを説明する報酬関数を推論する問題を扱う。しかし、関心のあるいくつかの問題では、複数の専門家の最適度の異なる行動(例えば、アマチュアからプロまでスキルの異なるレーシングドライバー)を観察することが可能である。このことから,本研究では,最適なエージェントによるデモンストレーションに加えて,複数のサブ最適専門家の振る舞いを観察できる問題まで,irlの定式化を拡張する。この問題を考えると、我々はまず、与えられた専門家集合、すなわち実現可能な報酬集合と適合する報酬関数のクラスの理論的性質について研究する。以上の結果から,複数の準最適専門家の存在は,相反する報酬の組を大幅に縮小できることが示唆された。さらに,生成モデルを用いて実現可能な報酬集合を推定する統計的複雑性について検討した。そこで本研究では,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合,最小限のサンプリングアルゴリズムを解析する。

関連論文リスト

Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文参考訳（メタデータ） (2025-04-08T00:49:08Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文参考訳（メタデータ） (2024-11-22T16:31:36Z)
Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文参考訳（メタデータ） (2024-07-16T21:28:03Z)
Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。 ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文参考訳（メタデータ） (2024-05-22T21:12:34Z)
Human-Algorithm Collaborative Bayesian Optimization for Engineering Systems [0.0]
我々は、協調ベイズ最適化のためのアプローチを概説することで、データ駆動意思決定ループに人間を再導入する。我々の手法は、人間は連続的な選択よりも離散的な選択をより効率的に行うことができるという仮説を生かしている。本稿では, バイオプロセス最適化やリアクトル幾何設計を含む, 応用および数値ケーススタディにまたがるアプローチを実証する。
論文参考訳（メタデータ） (2024-04-16T23:17:04Z)
Divide and not forget: Ensemble of selectively trained experts in Continual Learning [0.2886273197127056]
クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。 SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
論文参考訳（メタデータ） (2024-01-18T18:25:29Z)
Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文参考訳（メタデータ） (2023-06-05T06:55:39Z)
Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文参考訳（メタデータ） (2022-10-18T04:21:25Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Deep Adaptive Multi-Intention Inverse Reinforcement Learning [0.0]
本稿では,ラベルのない専門家のデモンストレーションから,事前の未知の非線形報酬関数を学習可能な,深い逆強化学習フレームワークを提案する。このツールをディリクレプロセスから採用し、複雑な報酬関数と未知の報酬関数の両方を同時に考慮する適応的アプローチを提案する。
論文参考訳（メタデータ） (2021-07-14T13:33:01Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文参考訳（メタデータ） (2020-11-18T13:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。