論文の概要: Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards
- arxiv url: http://arxiv.org/abs/2408.12112v1
- Date: Thu, 22 Aug 2024 03:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:13:16.535997
- Title: Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards
- Title(参考訳): バランス法:LLM設計レスバンドリワードの優先順位付け戦略
- Authors: Shresth Verma, Niclas Boehmer, Lingkai Kong, Milind Tambe,
- Abstract要約: 本稿では,人選好に基づく報酬関数のトレードオフを扱うための社会選択言語モデルを提案する。
実験により、我々のモデルはより効果的で、整合性があり、バランスの取れた報酬関数を確実に選択できることを示した。
- 参考スコア(独自算出の注目度): 41.140822259857266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly used to design reward functions based on human preferences in Reinforcement Learning (RL). We focus on LLM-designed rewards for Restless Multi-Armed Bandits, a framework for allocating limited resources among agents. In applications such as public health, this approach empowers grassroots health workers to tailor automated allocation decisions to community needs. In the presence of multiple agents, altering the reward function based on human preferences can impact subpopulations very differently, leading to complex tradeoffs and a multi-objective resource allocation problem. We are the first to present a principled method termed Social Choice Language Model for dealing with these tradeoffs for LLM-designed rewards for multiagent planners in general and restless bandits in particular. The novel part of our model is a transparent and configurable selection component, called an adjudicator, external to the LLM that controls complex tradeoffs via a user-selected social welfare function. Our experiments demonstrate that our model reliably selects more effective, aligned, and balanced reward functions compared to purely LLM-based approaches.
- Abstract(参考訳): LLMは、強化学習(Reinforcement Learning, RL)において、人間の好みに基づいた報酬関数の設計にますます利用されている。
エージェント間で限られたリソースを割り当てるフレームワークであるRestless Multi-Armed BanditsのLLM設計の報酬に焦点をあてる。
公衆衛生などの応用において、このアプローチは、草の根労働者に対して、コミュニティのニーズに対する自動割り当て決定を調整する権限を与える。
複数のエージェントが存在する場合、人間の嗜好に基づく報酬関数の変更はサブポピュレーションに大きく影響し、複雑なトレードオフと多目的資源割り当て問題を引き起こす。
LLMが設計したマルチエージェントプランナーに対する報酬と、特にレスレスバンディットのトレードオフを扱うための、社会選択言語モデル(Social Choice Language Model)と呼ばれる原則を最初に提示する。
我々のモデルでは, ユーザ選択型社会福祉機能を通じて複雑なトレードオフを制御する, LLM の外部にある, 適応子と呼ばれる透明で構成可能な選択成分が新たに導入されている。
本実験は,LLMに基づく手法と比較して,モデルがより効果的で整合性があり,バランスの取れた報酬関数を確実に選択することを示した。
関連論文リスト
- Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。