Fugu-MT 論文翻訳(概要): Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

論文の概要: Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

arxiv url: http://arxiv.org/abs/2404.00282v1
Date: Sat, 30 Mar 2024 08:28:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 04:30:18.917734
Title: Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods
Title（参考訳）: 大規模言語モデルによる強化強化学習に関する調査:概念・分類・方法
Authors: Yuji Cao, Huan Zhao, Yuheng Cheng, Ting Shu, Guolong Liu, Gaoqi Liang, Junhua Zhao, Yun Li,
Abstract要約: 大規模言語モデル(LLMs)は強化学習(RL)への有望な道として出現する本稿では,従来のRL法と比較して,$textitLLM-enhanced RL$における既存文献の包括的レビューを行い,その特徴を要約する。本稿では,情報処理装置,報酬設計装置,意思決定装置,ジェネレータの4つの役割を含む,RLにおけるLLMの機能を体系的に分類する構造的分類法を提案する。
参考スコア（独自算出の注目度）: 14.048999875266734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With extensive pre-trained knowledge and high-level general capabilities, large language models (LLMs) emerge as a promising avenue to augment reinforcement learning (RL) in aspects such as multi-task learning, sample efficiency, and task planning. In this survey, we provide a comprehensive review of the existing literature in $\textit{LLM-enhanced RL}$ and summarize its characteristics compared to conventional RL methods, aiming to clarify the research scope and directions for future studies. Utilizing the classical agent-environment interaction paradigm, we propose a structured taxonomy to systematically categorize LLMs' functionalities in RL, including four roles: information processor, reward designer, decision-maker, and generator. Additionally, for each role, we summarize the methodologies, analyze the specific RL challenges that are mitigated, and provide insights into future directions. Lastly, potential applications, prospective opportunities and challenges of the $\textit{LLM-enhanced RL}$ are discussed.
Abstract（参考訳）: 事前訓練された知識と高レベルの汎用能力により、多タスク学習、サンプル効率、タスクプランニングといった側面において強化学習(RL)を強化するための有望な手段として、大規模言語モデル(LLM)が出現する。本調査では,従来のRL法と比較して,既存の文献を包括的にレビューし,その特徴を要約し,今後の研究対象と方向性を明らかにすることを目的とする。従来のエージェント環境相互作用のパラダイムを用いて,情報処理,報酬設計,意思決定,ジェネレータの4つの役割を含む,RLにおけるLLMの機能を体系的に分類する構造的分類法を提案する。さらに、各役割について、方法論を要約し、緩和される特定のRL課題を分析し、今後の方向性についての洞察を提供する。最後に、$\textit{LLM-enhanced RL}$の潜在的な応用、将来的な可能性、課題について議論する。

関連論文リスト

Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Large Language Model-enhanced Reinforcement Learning for Low-Altitude Economy Networking [71.83640290222928]
Low-Altitude Economic Networking (LAENet)は、1000m以下の多様な飛行アプリケーションをサポートすることを目的としている。複雑な意思決定、資源の制約、環境の不確実性は、LEENetの開発に重大な課題をもたらす。
論文参考訳（メタデータ） (2025-05-27T11:25:42Z)
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本調査は,RLに基づく多モーダル大言語モデルの推論の最近の進歩を体系的にレビューする。我々は、RLの2つの主要なパラダイム、--value-free と value-based method を強調し、RLが推論能力をどのように強化するかを分析する。ベンチマークデータセット、評価プロトコル、既存の制限について概観する。
論文参考訳（メタデータ） (2025-04-30T03:14:28Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文参考訳（メタデータ） (2025-02-17T12:58:17Z)
Semantic Role Labeling: A Systematical Survey [43.51170121441664]
セマンティック・ロール・ラベリング(Semantic Role labeling, SRL)は、テキスト中のセマンティック・ロールを理解することを目的とした自然言語処理(NLP)タスクである。現在、この分野を徹底的に整理し、合成する総合的な調査が欠落している。本稿では,過去20年間のSRL研究の軌跡を概観する。
論文参考訳（メタデータ） (2025-02-09T12:45:49Z)
Reinforcement Learning Enhanced LLMs: A Survey [45.57586245741664]
我々はRL強化大言語モデル(LLM)に関する最新の知識の体系的なレビューを行う。具体的には、RLの基礎を詳述し、(2)人気のRL強化LLMを導入し、(3)広く使われている報酬モデルに基づくRL技術であるReinforcement Learning from Human Feedback(RLHF)とReinforcement Learning from AI Feedback(RLAIF)についてレビューする。
論文参考訳（メタデータ） (2024-12-05T16:10:42Z)
Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文参考訳（メタデータ） (2024-04-29T12:16:08Z)
A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。 LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文参考訳（メタデータ） (2024-04-22T15:53:08Z)
Automating Research Synthesis with Domain-Specific Large Language Model Fine-Tuning [0.9110413356918055]
本研究は,SLR(Systematic Literature Reviews)の自動化にLLM(Funture-Tuned Large Language Models)を用いた先駆的研究である。本研究は,オープンソースLLMとともに最新の微調整手法を採用し,SLRプロセスの最終実行段階を自動化するための実用的で効率的な手法を実証した。その結果, LLM応答の精度は高く, 既存のPRISMAコンフォーミングSLRの複製により検証された。
論文参考訳（メタデータ） (2024-04-08T00:08:29Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Mutual Enhancement of Large Language and Reinforcement Learning Models through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-12T14:35:57Z)
Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis [91.5632751731927]
ChatGPTのような大規模言語モデルは、一般的なタスクを解く際、顕著な能力を示した。本稿では,レコメンデーションタスクにおけるLLMの活用のための汎用フレームワークを提案し,レコメンデーションタスクとしてのLLMの機能に着目した。提案手法は,提案手法が推薦結果に与える影響を解析し,提案手法とモデルアーキテクチャ,パラメータスケール,コンテキスト長について検討する。
論文参考訳（メタデータ） (2024-01-10T08:28:56Z)
The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文参考訳（メタデータ） (2023-12-01T16:00:25Z)
A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文参考訳（メタデータ） (2023-05-31T13:51:26Z)
Ensemble Reinforcement Learning: A Survey [43.17635633600716]
強化学習(Reinforcement Learning, RL)は, 様々な科学的, 応用的な問題に対処するための, 極めて効果的な手法として登場した。これに対し, アンサンブル強化学習(ERL)は, RLとアンサンブル学習(EL)の両方の利点を組み合わせた有望なアプローチであり, 広く普及している。 ERLは複数のモデルやトレーニングアルゴリズムを活用して、問題空間を包括的に探索し、強力な一般化能力を持つ。
論文参考訳（メタデータ） (2023-03-05T09:26:44Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文参考訳（メタデータ） (2021-06-02T18:12:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。