Fugu-MT 論文翻訳(概要): A Survey of Temporal Credit Assignment in Deep Reinforcement Learning

論文の概要: A Survey of Temporal Credit Assignment in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2312.01072v2
Date: Thu, 4 Jul 2024 09:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 00:42:23.807213
Title: A Survey of Temporal Credit Assignment in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習における時間的クレジット割り当てに関する調査
Authors: Eduardo Pignatelli, Johan Ferret, Matthieu Geist, Thomas Mesnard, Hado van Hasselt, Olivier Pietquin, Laura Toni,
Abstract要約: クレディ・アサインメント問題(Capital Assignment Problem, CAP)とは、強化学習(Reinforcement Learning, RL)エージェントが長期的な結果と行動を関連付けるための長年にわたる課題を指す。我々は、最先端のアルゴリズムの公平な比較を可能にする信用の統一形式性を提案する。我々は、遅延効果、転置、行動への影響の欠如に起因する課題について論じ、既存の手法がそれらにどう対処しようとしているのかを分析した。
参考スコア（独自算出の注目度）: 47.17998784925718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Credit Assignment Problem (CAP) refers to the longstanding challenge of Reinforcement Learning (RL) agents to associate actions with their long-term consequences. Solving the CAP is a crucial step towards the successful deployment of RL in the real world since most decision problems provide feedback that is noisy, delayed, and with little or no information about the causes. These conditions make it hard to distinguish serendipitous outcomes from those caused by informed decision-making. However, the mathematical nature of credit and the CAP remains poorly understood and defined. In this survey, we review the state of the art of Temporal Credit Assignment (CA) in deep RL. We propose a unifying formalism for credit that enables equitable comparisons of state-of-the-art algorithms and improves our understanding of the trade-offs between the various methods. We cast the CAP as the problem of learning the influence of an action over an outcome from a finite amount of experience. We discuss the challenges posed by delayed effects, transpositions, and a lack of action influence, and analyse how existing methods aim to address them. Finally, we survey the protocols to evaluate a credit assignment method and suggest ways to diagnose the sources of struggle for different methods. Overall, this survey provides an overview of the field for new-entry practitioners and researchers, it offers a coherent perspective for scholars looking to expedite the starting stages of a new study on the CAP, and it suggests potential directions for future research.
Abstract（参考訳）: クレディ・アサインメント問題(Capital Assignment Problem, CAP)とは、強化学習(Reinforcement Learning, RL)エージェントが長期的な結果と行動を関連付けるための長年にわたる課題を指す。 CAPの解決は、ほとんどの決定問題は、ノイズがあり、遅延があり、原因に関する情報がほとんど、あるいは全くないフィードバックを提供するので、現実の世界でRLのデプロイを成功させるための重要なステップである。これらの条件は、情報的意思決定によって引き起こされた結果とセレンディピティーな結果の区別を困難にしている。しかし、クレジットとCAPの数学的性質はいまだに理解されておらず、定義されていない。本調査では,深部RLにおける時間クレジット割り当て(CA)の現状を概観する。本稿では,最先端アルゴリズムの公平な比較を可能にし,各種手法間のトレードオフの理解を深める信用の一元化形式について提案する。我々はCAPを、経験の少ない結果に対する行動の影響を学習する問題として捉えた。我々は、遅延効果、転置、行動への影響の欠如に起因する課題について論じ、既存の手法がそれらにどう対処しようとしているのかを分析した。最後に,信用割当手法を評価するためのプロトコルを調査し,異なる方法の問題点を診断する方法を提案する。本調査は,新入生実践者や研究者の分野を概観するとともに,CAP研究の開始段階を早めるための一貫性のある視点を提供し,今後の研究の方向性を示唆するものである。

関連論文リスト

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文参考訳（メタデータ） (2025-03-27T15:36:30Z)
Causal Information Prioritization for Efficient Reinforcement Learning [21.74375718642216]
現在の強化学習(RL)法は、しばしばサンプル効率に悩まされる。最近の因果的アプローチはこの問題に対処することを目的としているが、それらは報酬誘導による状態や行動の因果的理解の基礎的なモデリングを欠いている。本稿では,CIP(Causal Information Prioritization, 因果情報優先化)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-14T11:44:17Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [60.244412212130264]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文参考訳（メタデータ） (2023-08-23T04:59:21Z)
Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文参考訳（メタデータ） (2023-07-21T20:54:52Z)
Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文参考訳（メタデータ） (2023-06-29T09:27:27Z)
Reinforcement Learning with Knowledge Representation and Reasoning: A Brief Survey [24.81327556378729]
近年,強化学習は飛躍的な発展を遂げている。いまだに複雑な実生活問題に対処する上で大きな障害に直面している。近年,知識表現と推論の利用に対する関心が高まっている。
論文参考訳（メタデータ） (2023-04-24T13:35:11Z)
A Survey on Causal Reinforcement Learning [41.645270300009436]
本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
論文参考訳（メタデータ） (2023-02-10T12:25:08Z)
Towards Causal Credit Assignment [0.0]
Hindsight Credit Assignmentは有望だが、まだ未検討の候補であり、長期的および対実的なクレジット割り当ての問題を解決することを目的としている。この論文で我々は、Hindsight Credit Assignmentを実証的に調査し、その主な利点と改善すべき重要なポイントを特定します。この修正により、ハイドサイト・クレジット・アサインメントの作業負荷が大幅に削減され、効率が向上し、各種タスクにおけるベースライン・クレジット・アサインメント・メソッドよりもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2022-12-22T12:06:37Z)
Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文参考訳（メタデータ） (2022-03-14T17:40:42Z)
Towards Practical Credit Assignment for Deep Reinforcement Learning [0.6749750044497732]
信用割当は強化学習における根本的な問題である。近年,HCA(Hindsight Credit Assignment)と呼ばれる手法が提案されている。我々は,クレジット制約付きアドバンテージ・アクター・クリティカル(C2A2C)という新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-08T16:35:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。