Fugu-MT 論文翻訳(概要): Structure in Deep Reinforcement Learning: A Survey and Open Problems

論文の概要: Structure in Deep Reinforcement Learning: A Survey and Open Problems

arxiv url: http://arxiv.org/abs/2306.16021v3
Date: Thu, 25 Apr 2024 14:40:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-27 00:07:23.900415
Title: Structure in Deep Reinforcement Learning: A Survey and Open Problems
Title（参考訳）: 深層強化学習の構造と課題
Authors: Aditya Mohan, Amy Zhang, Marius Lindauer,
Abstract要約: 関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクスによって特徴づけられるが、依然として限られている。この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如に起因している。
参考スコア（独自算出の注目度）: 22.77618616444693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL), bolstered by the expressive capabilities of Deep Neural Networks (DNNs) for function approximation, has demonstrated considerable success in numerous applications. However, its practicality in addressing various real-world scenarios, characterized by diverse and unpredictable dynamics, noisy signals, and large state and action spaces, remains limited. This limitation stems from poor data efficiency, limited generalization capabilities, a lack of safety guarantees, and the absence of interpretability, among other factors. To overcome these challenges and improve performance across these crucial metrics, one promising avenue is to incorporate additional structural information about the problem into the RL learning process. Various sub-fields of RL have proposed methods for incorporating such inductive biases. We amalgamate these diverse methodologies under a unified framework, shedding light on the role of structure in the learning problem, and classify these methods into distinct patterns of incorporating structure. By leveraging this comprehensive framework, we provide valuable insights into the challenges of structured RL and lay the groundwork for a design pattern perspective on RL research. This novel perspective paves the way for future advancements and aids in developing more effective and efficient RL algorithms that can potentially handle real-world scenarios better.
Abstract（参考訳）: 関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクス、ノイズ信号、そして大きな状態と行動空間によって特徴づけられる。この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如などに起因する。これらの課題を克服し、これらの重要な指標にまたがるパフォーマンスを改善するために、問題に関する構造的な情報をRL学習プロセスに組み込むことが有望な方法である。 RLの様々なサブフィールドは、そのような誘導バイアスを組み込む方法を提案している。我々は、これらの多様な方法論を統一的な枠組みの下で融合させ、学習問題における構造の役割に光を当て、これらの手法を構造を取り入れた異なるパターンに分類する。この包括的フレームワークを活用することで、構造化されたRLの課題に関する貴重な洞察を提供し、RL研究におけるデザインパターンの視点の基礎となる。この新たな視点は、現実世界のシナリオをよりうまく処理できる、より効率的で効率的なRLアルゴリズムを開発するための、将来の進歩と支援の道を開く。

関連論文リスト

Mechanistic Interpretability for Large Language Model Alignment: Progress, Challenges, and Future Directions [16.821238326410324]
大規模言語モデル(LLM)は様々なタスクにまたがる優れた機能を実現しているが、内部決定プロセスはほとんど不透明である。機械的解釈可能性(Mechanistic Interpretability)は、これらのモデルの理解と整合性のための重要な研究の方向性として現れている。我々は、人間のフィードバックからの強化学習、立憲AI、スケーラブルな監視など、解釈可能性に関する洞察がどのようにアライメント戦略に影響を与えたかを分析する。
論文参考訳（メタデータ） (2026-01-21T11:43:57Z)
Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms and Applications [35.74838344207327]
因果強化学習(CRL)は、因果関係を明示的にモデル化することによって、課題に対する有望な解決策を提供する。我々は既存のアプローチを因果表現学習、反ファクトポリシー最適化、オフライン因果RL、因果伝達学習、因果説明可能性に分類する。我々は、堅牢で、一般化可能で、解釈可能な人工知能システムを開発するためのCRLの可能性について、今後の研究指針を提供する。
論文参考訳（メタデータ） (2025-12-19T23:37:22Z)
Human-Allied Relational Reinforcement Learning [35.901573687779525]
リレーショナル拡張(RRL)は、任意の数のオブジェクトに効果的な一般化を可能にする構造化された問題のために開発された。我々は、RRLとオブジェクト中心表現を組み合わせた新しいフレームワークを導入し、構造化データと非構造化データの両方を扱う。
論文参考訳（メタデータ） (2025-10-17T19:56:03Z)
Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文参考訳（メタデータ） (2025-10-14T03:03:08Z)
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文参考訳（メタデータ） (2025-08-11T17:39:45Z)
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning [32.665418383317224]
本稿では,RLVRフレームワーク内でのマルチドメイン推論を体系的に検討する。数学的推論、コード生成、論理パズル解という3つの主要な領域に注目します。私たちの結果は、ドメイン間相互作用を管理するダイナミクスに関する重要な洞察を与えます。
論文参考訳（メタデータ） (2025-07-23T13:51:04Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Discovering Temporal Structure: An Overview of Hierarchical Reinforcement Learning [49.46436458692833]
この研究は、意思決定における根本的な課題の観点から、HRLの利点を特定することを目的としている。次に、オンラインエクスペリエンスからオフラインデータセットまで、HRLの時間構造を検出するメソッドのファミリーをカバーします。最後に、時間構造発見の課題と、そのような取り組みに特に適した領域に焦点を当てる。
論文参考訳（メタデータ） (2025-06-16T22:36:32Z)
Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [17.421901873720156]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。 RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文参考訳（メタデータ） (2025-06-07T16:37:46Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
A Survey on Explainable Deep Reinforcement Learning [18.869827229746697]
Deep Reinforcement Learning (DRL)は、さまざまな領域にわたるシーケンシャルな意思決定タスクにおいて、顕著な成功を収めた。ブラックボックスのニューラルアーキテクチャに依存しているため、高信頼のアプリケーションにおける解釈可能性、信頼性、デプロイメントが妨げられる。説明可能なDeep Reinforcement Learning(XRL)は、機能レベル、状態レベル、データセットレベル、モデルレベルの説明技術を通じて透明性を高めることで、これらの課題に対処する。
論文参考訳（メタデータ） (2025-02-08T05:30:31Z)
A Comprehensive Survey of Reinforcement Learning: From Algorithms to Practical Challenges [2.2448567386846916]
強化学習(RL)は人工知能(AI)の強力なパラダイムとして登場した。本稿では,多種多様なアルゴリズムを巧みに分析するRLの包括的調査を行う。我々は、RLアルゴリズムの選択と実装に関する実践的な洞察を提供し、収束、安定性、探索-探索ジレンマといった共通の課題に対処する。
論文参考訳（メタデータ） (2024-11-28T03:53:14Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey [16.89460694470542]
Inlicit Neural Representation (INR) は知識表現のパラダイムとして登場した。 INRは、データを連続的な暗黙の関数としてモデル化するために多層パーセプトロン(MLP)を利用する。この調査では、アクティベーション機能、位置エンコーディング、統合戦略、ネットワーク構造という4つの重要な領域に分類する明確な分類法を紹介した。
論文参考訳（メタデータ） (2024-11-06T06:14:24Z)
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文参考訳（メタデータ） (2024-10-11T13:52:44Z)
Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning? [1.9116784879310031]
深層強化学習(RL)では、値関数はディープニューラルネットワークを用いて近似され、平均2乗誤差回帰目標を用いて訓練される。近年の研究では、クロスエントロピー分類の目的を活かした代替手法が提案されている。我々の研究は、オフラインのRLセットアップにおけるそのような置換の影響を実証的に調査することを目指している。
論文参考訳（メタデータ） (2024-06-10T14:25:11Z)
Safe and Robust Reinforcement Learning: Principles and Practice [0.0]
強化学習は比較的複雑なタスクの解決に顕著な成功を収めた。現実のシナリオにおけるRLシステムのデプロイは、安全性と堅牢性に関する重大な課題を生じさせる。本稿では, アルゴリズム, 倫理的, 実践的考察を含む安全で堅牢なRL景観の主次元について考察する。
論文参考訳（メタデータ） (2024-03-27T13:14:29Z)
Large Language Models for Forecasting and Anomaly Detection: A Systematic Literature Review [10.325003320290547]
本稿では,Large Language Models (LLMs) の予測・異常検出への応用について概説する。 LLMは、パターンを特定し、将来の事象を予測し、様々な領域にまたがる異常な振る舞いを検出するために、広範囲なデータセットを解析し分析する大きな可能性を示してきた。このレビューでは、膨大な歴史的データセットへの依存、さまざまな文脈における一般化可能性の問題、モデル幻覚の現象など、より広範な採用と有効性を阻害するいくつかの重要な課題を取り上げている。
論文参考訳（メタデータ） (2024-02-15T22:43:02Z)
The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文参考訳（メタデータ） (2023-12-01T16:00:25Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)
Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文参考訳（メタデータ） (2021-02-22T05:05:16Z)
Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文参考訳（メタデータ） (2020-06-13T16:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。