論文の概要: Alchemy: A structured task distribution for meta-reinforcement learning
- arxiv url: http://arxiv.org/abs/2102.02926v1
- Date: Thu, 4 Feb 2021 23:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 15:23:33.626458
- Title: Alchemy: A structured task distribution for meta-reinforcement learning
- Title(参考訳): Alchemy:メタ強化学習のための構造化タスク分布
- Authors: Jane X. Wang, Michael King, Nicolas Porcel, Zeb Kurth-Nelson, Tina
Zhu, Charlie Deck, Peter Choy, Mary Cassin, Malcolm Reynolds, Francis Song,
Gavin Buttimore, David P. Reichert, Neil Rabinowitz, Loic Matthey, Demis
Hassabis, Alexander Lerchner, Matthew Botvinick
- Abstract要約: 本稿では,構造的リッチネスと構造的透明性を組み合わせたメタRL研究のための新しいベンチマークを提案する。
Alchemyは3Dビデオゲームで、エピソードからエピソードまで手続き的に再サンプリングされる潜伏した因果構造を含んでいる。
本稿では,アルケミーの強力なRL剤について検討し,その1つについて詳細な分析を行った。
- 参考スコア(独自算出の注目度): 52.75769317355963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been rapidly growing interest in meta-learning as a method for
increasing the flexibility and sample efficiency of reinforcement learning. One
problem in this area of research, however, has been a scarcity of adequate
benchmark tasks. In general, the structure underlying past benchmarks has
either been too simple to be inherently interesting, or too ill-defined to
support principled analysis. In the present work, we introduce a new benchmark
for meta-RL research, which combines structural richness with structural
transparency. Alchemy is a 3D video game, implemented in Unity, which involves
a latent causal structure that is resampled procedurally from episode to
episode, affording structure learning, online inference, hypothesis testing and
action sequencing based on abstract domain knowledge. We evaluate a pair of
powerful RL agents on Alchemy and present an in-depth analysis of one of these
agents. Results clearly indicate a frank and specific failure of meta-learning,
providing validation for Alchemy as a challenging benchmark for meta-RL.
Concurrent with this report, we are releasing Alchemy as public resource,
together with a suite of analysis tools and sample agent trajectories.
- Abstract(参考訳): 強化学習の柔軟性とサンプル効率を高める方法としてメタ学習への関心が急速に高まっている。
しかし、この研究領域の1つの問題は、適切なベンチマークタスクが不足していることである。
一般に、過去のベンチマークの基盤となる構造は、本質的に興味をそそるには単純すぎるか、原則分析をサポートするには不明確すぎるかのどちらかである。
本稿では,構造的豊かさと構造的透明性を組み合わせたメタrl研究の新しいベンチマークを紹介する。
AlchemyはUnityで実装された3Dビデオゲームで、エピソードからエピソードに段階的に再サンプリングされる潜伏因果関係構造を含み、構造学習、オンライン推論、仮説テスト、および抽象ドメイン知識に基づくアクションシークエンスを可能にする。
Alchemy上の強力なRLエージェントのペアを評価し、これらのエージェントの1つを詳細に分析します。
結果は、メタラーニングの率直で具体的な失敗を明確に示し、メタRLの難しいベンチマークとしてAlchemyの検証を提供します。
このレポートと並行して、Alchemyを公開リソースとして、分析ツールやサンプルエージェントのトラジェクトリとともにリリースしています。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - A Quick, trustworthy spectral knowledge Q&A system leveraging retrieval-augmented generation on LLM [0.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、一般領域内で大きな成功を収めている。
本稿では,SDAAP(Spectral Detection and Analysis Based Paper)データセットを紹介する。
また、SDAAPデータセットに基づく自動Q&Aフレームワークを設計し、関連する知識を検索し、高品質な応答を生成する。
論文 参考訳(メタデータ) (2024-08-21T12:09:37Z) - One-step Structure Prediction and Screening for Protein-Ligand Complexes using Multi-Task Geometric Deep Learning [6.605588716386855]
マルチタスク幾何学的深層学習に基づいて,LigPoseを1つのモデル,すなわちLigPoseに正確に取り組めることを示す。
LigPoseはリガンドとタンパク質のペアをグラフとして表現し、結合強度と原子間相互作用を補助的なタスクとして学習する。
実験によると、LigPoseは薬物研究の主要な課題について最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-21T05:53:50Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - A model-based approach to meta-Reinforcement Learning: Transformers and
tree search [1.1602089225841632]
本稿では,メタRLにおける探索とエクスプロイトを成功させるために,オンラインプランニングにおけるモデルベースアプローチの有効性を示す。
メタRL問題に存在する潜在空間から生じる複雑な力学を学習するためのTransformerアーキテクチャの効率性を示す。
論文 参考訳(メタデータ) (2022-08-24T13:30:26Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。