論文の概要: Swarm Behavior Cloning
- arxiv url: http://arxiv.org/abs/2412.07617v1
- Date: Tue, 10 Dec 2024 15:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:31.023704
- Title: Swarm Behavior Cloning
- Title(参考訳): Swarm Behavior Cloning
- Authors: Jonas Nüßlein, Maximilian Zorn, Philipp Altmann, Claudia Linnhoff-Popien,
- Abstract要約: シーケンシャルな意思決定環境では、トレーニングエージェントの主要なアプローチは強化学習(RL)と模倣学習(IL)である。
本稿は、トレーニングデータに不足している状態において、N$の予測されたアクション間の相違が増加するという、アクションの違いの増加の問題に対処する。
計算の多様性を保ちつつポリシー間の整合性を高める手法を提案する。
- 参考スコア(独自算出の注目度): 4.9854403800887415
- License:
- Abstract: In sequential decision-making environments, the primary approaches for training agents are Reinforcement Learning (RL) and Imitation Learning (IL). Unlike RL, which relies on modeling a reward function, IL leverages expert demonstrations, where an expert policy $\pi_e$ (e.g., a human) provides the desired behavior. Formally, a dataset $D$ of state-action pairs is provided: $D = {(s, a = \pi_e(s))}$. A common technique within IL is Behavior Cloning (BC), where a policy $\pi(s) = a$ is learned through supervised learning on $D$. Further improvements can be achieved by using an ensemble of $N$ individually trained BC policies, denoted as $E = {\pi_i(s)}{1 \leq i \leq N}$. The ensemble's action $a$ for a given state $s$ is the aggregated output of the $N$ actions: $a = \frac{1}{N} \sum{i} \pi_i(s)$. This paper addresses the issue of increasing action differences -- the observation that discrepancies between the $N$ predicted actions grow in states that are underrepresented in the training data. Large action differences can result in suboptimal aggregated actions. To address this, we propose a method that fosters greater alignment among the policies while preserving the diversity of their computations. This approach reduces action differences and ensures that the ensemble retains its inherent strengths, such as robustness and varied decision-making. We evaluate our approach across eight diverse environments, demonstrating a notable decrease in action differences and significant improvements in overall performance, as measured by mean episode returns.
- Abstract(参考訳): シーケンシャルな意思決定環境では、トレーニングエージェントの主要なアプローチは強化学習(RL)と模倣学習(IL)である。
報酬関数のモデリングに依存するRLとは異なり、ILは専門家のデモンストレーションを活用し、専門家のポリシー$\pi_e$(例:人間)が望ましい振る舞いを提供する。
正式には、ステートアクションペアのデータセット$D$が提供される。
IL の一般的なテクニックはビヘイビア・クローン (BC) であり、ポリシー $\pi(s) = a$ は $D$ の教師あり学習を通じて学習される。
さらなる改善は、個別に訓練されたBCポリシーのアンサンブル($E = {\pi_i(s)}{1 \leq i \leq N}$)を使用することで達成できる。
与えられた状態に対するアンサンブルのアクション$a$は、$N$アクションの集約出力である。
本稿は、トレーニングデータに不足している状態において、N$の予測されたアクション間の相違が増加するという、アクションの違いの増加の問題に対処する。
アクションの大きな違いは、最適以下の集約されたアクションをもたらす可能性がある。
そこで本研究では,それらの計算の多様性を保ちつつ,ポリシー間の整合性を向上する手法を提案する。
このアプローチは、アクションの違いを減らし、アンサンブルがロバスト性や様々な意思決定など、固有の強みを維持することを保証する。
我々は,8つの異なる環境におけるアプローチを評価し,行動差の顕著な減少と全体のパフォーマンスの顕著な改善を,平均エピソードリターンによって測定した。
関連論文リスト
- Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文 参考訳(メタデータ) (2022-12-01T00:14:35Z) - Tractable Optimality in Episodic Latent MABs [75.17357040707347]
我々は、エージェントが時間ステップ$H$のエピソードのために環境と対話する、M$遅延コンテキストを持つマルチアームバンディット問題を考える。
エピソードの長さによっては、学習者は遅れた文脈を正確に見積もることができないかもしれない。
我々は、$O(textttpoly(A) + textttpoly(M,H)min(M,H))$インタラクションを用いて、ほぼ最適なポリシーを確実に学習する手順を設計する。
論文 参考訳(メタデータ) (2022-10-05T22:53:46Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - An Analysis of Frame-skipping in Reinforcement Learning [13.680685626360903]
多くのAtariコンソールゲームでは、強化学習アルゴリズムが$d > 1$で実行する場合、かなり優れたポリシーを提供する。
我々は、同じアクションの$d$長のシーケンスに対するこの選択の一般的な制限である「アクション-繰り返し」に焦点を当てる。
この損失は、より小さなタスクの地平線によって学習がもたらされた利益によって相殺される可能性がある。
論文 参考訳(メタデータ) (2021-02-07T04:59:09Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - A No-Free-Lunch Theorem for MultiTask Learning [19.645741778058227]
すべてのタスク$P_t$が共通の最適分類器$h*,$を共有する、一見好都合な分類シナリオを考える。
このようなレジームは、$n$と$N$の両方のミニマックスレートを許容するが、適応アルゴリズムは存在しない。
論文 参考訳(メタデータ) (2020-06-29T03:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。