論文の概要: A hybrid learning agent for episodic learning tasks with unknown target distance
- arxiv url: http://arxiv.org/abs/2412.13686v1
- Date: Wed, 18 Dec 2024 10:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:07.295837
- Title: A hybrid learning agent for episodic learning tasks with unknown target distance
- Title(参考訳): 目標距離の不明なエピソード学習課題のためのハイブリッド学習エージェント
- Authors: Oliver Sefrin, Sabine Wölk,
- Abstract要約: 本稿では,必要なエピソードの長さに関する知識の必要性を軽減するために,選択戦略を備えたハイブリッドエージェントを提案する。
このハイブリッドエージェントは, ターゲット距離が不明で, エピソードの長さが一定でない特定のシナリオにおいて, 対応する古典的エージェントよりも高速に学習できることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The "hybrid agent for quantum-accessible reinforcement learning", as defined in (Hamann and W\"olk, 2022), provides a proven quasi-quadratic speedup and is experimentally tested. However, the standard version can only be applied to episodic learning tasks with fixed episode length. In many real-world applications, the information about the necessary number of steps within an episode to reach a defined target is not available in advance and especially before reaching the target for the first time. Furthermore, in such scenarios, classical agents have the advantage of observing at which step they reach the target. Whether the hybrid agent can provide an advantage in such learning scenarios was unknown so far. In this work, we introduce a hybrid agent with a stochastic episode length selection strategy to alleviate the need for knowledge about the necessary episode length. Through simulations, we test the adapted hybrid agent's performance versus classical counterparts. We find that the hybrid agent learns faster than corresponding classical learning agents in certain scenarios with unknown target distance and without fixed episode length.
- Abstract(参考訳): Hamann and W\"olk, 2022)で定義された「量子アクセシブル強化学習のためのハイブリッドエージェント」は、証明された準クアッドラティックなスピードアップを提供し、実験的にテストされている。
しかし、標準的なバージョンは、エピソードの長さが固定されたエピソード学習タスクにしか適用できない。
多くの実世界のアプリケーションでは、決定された目標に到達するために必要なエピソード内のステップ数に関する情報は、前もって、特に初めて目標に到達する前に入手できない。
さらに、このようなシナリオでは、古典的なエージェントはどのステップで目標に到達するかを観察する利点がある。
このような学習シナリオにおいてハイブリッドエージェントが有利になるかどうかはまだ分かっていない。
本研究では,必要なエピソード長に関する知識の必要性を軽減するため,確率的エピソード長選択戦略を備えたハイブリッドエージェントを提案する。
シミュレーションにより,適応型ハイブリッドエージェントの性能と古典的性能を比較検討する。
このハイブリッドエージェントは,特定のシナリオにおいて,ターゲット距離が不明で,エピソードの長さが固定されていない場合に,対応する古典的学習エージェントよりも高速に学習できることが判明した。
関連論文リスト
- Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - AutoDIME: Automatic Design of Interesting Multi-Agent Environments [3.1546318469750205]
マルチエージェント設定に適用可能な予測問題から得られた本質的な教師報酬のセットについて検討する。
本質的に見なされた報酬のうち、価値の相違はタスク間で最も一貫性があることがわかった。
この結果から,教師の報酬,特に価値の相違は,単一環境とマルチエージェント環境の両方を自動生成する上で有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2022-03-04T18:25:33Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。