Fugu-MT 論文翻訳(概要): SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent

論文の概要: SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent

arxiv url: http://arxiv.org/abs/2410.14152v1
Date: Fri, 18 Oct 2024 03:43:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.305792
Title: SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent
Title（参考訳）: SRAP-Agent: LLMエージェントによるスカース資源配分政策のシミュレーションと最適化
Authors: Jiarui Ji, Yang Li, Hongtao Liu, Zhicheng Du, Zhewei Wei, Weiran Shen, Qi Qi, Yankai Lin,
Abstract要約: 本稿では,大規模言語モデル(LLM)を経済シミュレーションに統合する,革新的なフレームワークSRAP-Agentを提案する。我々は、SRAP-Agentの有効性と有効性を検証するために、広範な政策シミュレーション実験を行う。
参考スコア（独自算出の注目度）: 45.41401816514924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Public scarce resource allocation plays a crucial role in economics as it directly influences the efficiency and equity in society. Traditional studies including theoretical model-based, empirical study-based and simulation-based methods encounter limitations due to the idealized assumption of complete information and individual rationality, as well as constraints posed by limited available data. In this work, we propose an innovative framework, SRAP-Agent (Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent), which integrates Large Language Models (LLMs) into economic simulations, aiming to bridge the gap between theoretical models and real-world dynamics. Using public housing allocation scenarios as a case study, we conduct extensive policy simulation experiments to verify the feasibility and effectiveness of the SRAP-Agent and employ the Policy Optimization Algorithm with certain optimization objectives. The source code can be found in https://github.com/jijiarui-cather/SRAPAgent_Framework
Abstract（参考訳）: 公共の希少な資源配分は、社会の効率と株式に直接影響を与えるため、経済学において重要な役割を担っている。理論モデルに基づく、経験的研究に基づく、シミュレーションに基づく手法を含む伝統的な研究は、完全な情報と個人の合理性という理想化された仮定と、限られた利用可能なデータによって引き起こされる制約によって制限に直面する。本研究では,大規模言語モデル(LLM)を経済シミュレーションに統合したSRAP-Agent(Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent)を提案する。公共住宅配置シナリオをケーススタディとして、SRAP-Agentの有効性と有効性を検証するための広範な政策シミュレーション実験を行い、特定の最適化目標を持つ政策最適化アルゴリズムを適用した。ソースコードはhttps://github.com/jijiarui-cather/SRAPAgent_Frameworkにある。

関連論文リスト

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
InfoBid: A Simulation Framework for Studying Information Disclosure in Auctions with Large Language Model-based Agents [1.9368956071944328]
この研究は、理論的市場設計と実践的応用のギャップを埋め、市場シミュレーション、情報設計、エージェントベースの推論の研究を進める。 LLMエージェントを利用したフレキシブルなシミュレーションフレームワークInfoBidを導入し,マルチエージェントオークション設定における情報開示戦略の効果について検討する。
論文参考訳（メタデータ） (2025-03-26T04:46:57Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
On the limits of agency in agent-based models [13.130587222524305]
エージェントベースモデリングは複雑なシステムに対する強力な洞察を提供するが、その実用性は計算の制約によって制限されている。大規模言語モデル(LLM)の最近の進歩は、適応エージェントによるABMを強化する可能性があるが、大規模なシミュレーションへの統合は依然として困難である。大規模シミュレーションにおいて,行動複雑性と計算効率のバランスをとる手法であるLSMアーチタイプを提案する。
論文参考訳（メタデータ） (2024-09-14T04:17:24Z)
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文参考訳（メタデータ） (2024-08-23T14:48:02Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Learning Efficient and Fair Policies for Uncertainty-Aware Collaborative Human-Robot Order Picking [11.997524293204368]
協調的な人間ロボットのオーダーピッキングシステムでは、人間のピッカーと自律移動ロボット(AMR)は倉庫内を独立して移動し、ピッカーがアイテムをAMRに積む場所で会う。本稿では,多目的深層強化学習(DRL)アプローチを提案する。
論文参考訳（メタデータ） (2024-04-09T11:45:16Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
The Virtues of Laziness in Model-based RL: A Unified Objective and Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文参考訳（メタデータ） (2023-03-01T17:42:26Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文参考訳（メタデータ） (2021-11-16T15:24:59Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。