論文の概要: SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent
- arxiv url: http://arxiv.org/abs/2410.14152v1
- Date: Fri, 18 Oct 2024 03:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:46.233871
- Title: SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent
- Title(参考訳): SRAP-Agent: LLMエージェントによるスカース資源配分政策のシミュレーションと最適化
- Authors: Jiarui Ji, Yang Li, Hongtao Liu, Zhicheng Du, Zhewei Wei, Weiran Shen, Qi Qi, Yankai Lin,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を経済シミュレーションに統合する,革新的なフレームワークSRAP-Agentを提案する。
我々は、SRAP-Agentの有効性と有効性を検証するために、広範な政策シミュレーション実験を行う。
- 参考スコア(独自算出の注目度): 45.41401816514924
- License:
- Abstract: Public scarce resource allocation plays a crucial role in economics as it directly influences the efficiency and equity in society. Traditional studies including theoretical model-based, empirical study-based and simulation-based methods encounter limitations due to the idealized assumption of complete information and individual rationality, as well as constraints posed by limited available data. In this work, we propose an innovative framework, SRAP-Agent (Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent), which integrates Large Language Models (LLMs) into economic simulations, aiming to bridge the gap between theoretical models and real-world dynamics. Using public housing allocation scenarios as a case study, we conduct extensive policy simulation experiments to verify the feasibility and effectiveness of the SRAP-Agent and employ the Policy Optimization Algorithm with certain optimization objectives. The source code can be found in https://github.com/jijiarui-cather/SRAPAgent_Framework
- Abstract(参考訳): 公共の希少な資源配分は、社会の効率と株式に直接影響を与えるため、経済学において重要な役割を担っている。
理論モデルに基づく、経験的研究に基づく、シミュレーションに基づく手法を含む伝統的な研究は、完全な情報と個人の合理性という理想化された仮定と、限られた利用可能なデータによって引き起こされる制約によって制限に直面する。
本研究では,大規模言語モデル(LLM)を経済シミュレーションに統合したSRAP-Agent(Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent)を提案する。
公共住宅配置シナリオをケーススタディとして、SRAP-Agentの有効性と有効性を検証するための広範な政策シミュレーション実験を行い、特定の最適化目標を持つ政策最適化アルゴリズムを適用した。
ソースコードはhttps://github.com/jijiarui-cather/SRAPAgent_Frameworkにある。
関連論文リスト
- The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。
本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。
シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Learning Efficient and Fair Policies for Uncertainty-Aware Collaborative Human-Robot Order Picking [11.997524293204368]
協調的な人間ロボットのオーダーピッキングシステムでは、人間のピッカーと自律移動ロボット(AMR)は倉庫内を独立して移動し、ピッカーがアイテムをAMRに積む場所で会う。
本稿では,多目的深層強化学習(DRL)アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-09T11:45:16Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。