論文の概要: Rule-Bottleneck Reinforcement Learning: Joint Explanation and Decision Optimization for Resource Allocation with Language Agents
- arxiv url: http://arxiv.org/abs/2502.10732v1
- Date: Sat, 15 Feb 2025 09:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:50.866289
- Title: Rule-Bottleneck Reinforcement Learning: Joint Explanation and Decision Optimization for Resource Allocation with Language Agents
- Title(参考訳): ルール・ブートネック強化学習:言語エージェントによる資源配分のための共同説明と決定の最適化
- Authors: Mauricio Tec, Guojun Xiong, Haichuan Wang, Francesca Dominici, Milind Tambe,
- Abstract要約: Rule-Bottleneck Reinforcement Learning (RBRL)は、意思決定と説明を共同で最適化する新しいフレームワークである。
実世界のシナリオにおける評価では、RBRLの深いRLとの競合性能とLLMの微調整よりも効率の向上が強調されている。
- 参考スコア(独自算出の注目度): 26.7942726790676
- License:
- Abstract: Deep Reinforcement Learning (RL) is remarkably effective in addressing sequential resource allocation problems in domains such as healthcare, public policy, and resource management. However, deep RL policies often lack transparency and adaptability, challenging their deployment alongside human decision-makers. In contrast, Language Agents, powered by large language models (LLMs), provide human-understandable reasoning but may struggle with effective decision making. To bridge this gap, we propose Rule-Bottleneck Reinforcement Learning (RBRL), a novel framework that jointly optimizes decision and explanations. At each step, RBRL generates candidate rules with an LLM, selects among them using an attention-based RL policy, and determines the environment action with an explanation via chain-of-thought reasoning. The RL rule selection is optimized using the environment rewards and an explainability metric judged by the LLM. Evaluations in real-world scenarios highlight RBRL's competitive performance with deep RL and efficiency gains over LLM fine-tuning. A survey further confirms the enhanced quality of its explanations.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, RL)は、医療、公共政策、資源管理といった領域における逐次的な資源配分問題に対処する上で、極めて効果的である。
しかしながら、深いRLポリシーは透明性と適応性に欠けることが多く、人間の意思決定者とともにデプロイメントに挑戦する。
対照的に、Language Agentsは、大きな言語モデル(LLM)をベースとして、人間に理解可能な推論を提供するが、効果的な意思決定に苦慮する可能性がある。
このギャップを埋めるために、我々は、決定と説明を共同で最適化する新しいフレームワークであるルール・ブートネック強化学習(RBRL)を提案する。
各ステップにおいて、RBRLはLLMを用いて候補ルールを生成し、注目に基づくRLポリシーを用いてそれらの中から選択し、チェーン・オブ・シークレット・推論による説明により環境行動を決定する。
RLルールの選択は環境報酬とLCMで判断される説明可能性指標を用いて最適化される。
実世界のシナリオにおける評価では、RBRLの深いRLとの競合性能とLLMの微調整よりも効率の向上が強調されている。
調査はさらに、説明の質の向上を確認している。
関連論文リスト
- Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Explaining RL Decisions with Trajectories [28.261758841898697]
説明は、実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。
本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
論文 参考訳(メタデータ) (2023-05-06T15:26:22Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。