論文の概要: Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs
- arxiv url: http://arxiv.org/abs/2506.00577v1
- Date: Sat, 31 May 2025 14:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.201674
- Title: Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs
- Title(参考訳): 経済学者としての推論--LLMの戦略的一般化を誘発する経済問題後の考察
- Authors: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang,
- Abstract要約: 本稿では,特にSFT(Supervised Fine-Tuning)やRLVR(Reinforcement Learning with Verifiable Rewards)といったポストトレーニング手法が,マルチエージェントシナリオに$textit Generalize$を効果的に適用できるかどうかを考察する。
我々は、経済的推論をテストベッドとして使用し、数学とゲーム理論の強力な基盤を活用している。
経済推論ベンチマークとマルチエージェントゲームに関する総合的な評価は、構造化推論と経済合理性において明らかに改善されていることを示している。
- 参考スコア(独自算出の注目度): 25.067282214293904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS) remains challenging due to intricate reward modeling, dynamic agent interactions, and demanding generalization requirements. This paper explores whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR), can effectively $\textit{generalize}$ to multi-agent scenarios. We use economic reasoning as a testbed, leveraging its strong foundations in mathematics and game theory, its demand for structured analytical reasoning, and its relevance to real-world applications such as market design, resource allocation, and policy analysis. We introduce $\textbf{Recon}$ ($\textbf{R}$easoning like an $\textbf{ECON}$omist), a 7B-parameter open-source LLM post-trained on a hand-curated dataset of 2,100 high-quality economic reasoning problems. Comprehensive evaluation on economic reasoning benchmarks and multi-agent games reveals clear improvements in structured reasoning and economic rationality. These results underscore the promise of domain-aligned post-training for enhancing reasoning and agent alignment, shedding light on the roles of SFT and RL in shaping model behavior. Code is available at https://github.com/MasterZhou1/Recon .
- Abstract(参考訳): マルチエージェントシステム(MAS)のためのLLM(Large Language Models)を直接訓練することは、複雑な報酬モデリング、動的エージェントの相互作用、一般化要求の要求により、依然として困難である。
本稿では,特にSFT(Supervised Fine-Tuning)やRLVR(Reinforcement Learning with Verifiable Rewards)といったポストトレーニング手法が,マルチエージェントシナリオに対して効果的に$\textit{ Generalize}$を適用できるかどうかを考察する。
我々は、経済推論をテストベッドとして使用し、数学とゲーム理論の強力な基盤、構造化された分析的推論の需要、および市場設計、資源配分、政策分析といった現実世界の応用との関係を生かした。
我々は、7Bパラメータのオープンソース LLM である $\textbf{Recon}$$$$\textbf{R}$easoning as an $\textbf{ECON}$omist を紹介する。
経済推論ベンチマークとマルチエージェントゲームに関する総合的な評価は、構造化推論と経済合理性において明らかに改善されていることを示している。
これらの結果は, モデル形成におけるSFTおよびRLの役割に光を当て, 推論およびエージェントアライメントを高めるためのドメイン整列後トレーニングの約束を裏付けるものである。
コードはhttps://github.com/MasterZhou1/Reconで入手できる。
関連論文リスト
- General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Approximating Human Strategic Reasoning with LLM-Enhanced Recursive Reasoners Leveraging Multi-agent Hypergames [3.5083201638203154]
我々は、洗練された推論者に適したロールベースのマルチエージェント戦略相互作用フレームワークを実装した。
我々は,最新のLCMの推論能力を評価するために,ワンショット2プレーヤ美容コンテストを用いた。
実験の結果,人間行動の近似と最適解への到達の両面で,人工推論がベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-11T10:37:20Z) - SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent [45.41401816514924]
本稿では,大規模言語モデル(LLM)を経済シミュレーションに統合する,革新的なフレームワークSRAP-Agentを提案する。
我々は、SRAP-Agentの有効性と有効性を検証するために、広範な政策シミュレーション実験を行う。
論文 参考訳(メタデータ) (2024-10-18T03:43:42Z) - Simulating Financial Market via Large Language Model based Agents [22.36549613587476]
ほとんどの経済理論は、金融市場の参加者が完全に合理的な個人であり、金融市場の人間の振る舞いをシミュレートするために数学的モデルを使用していると仮定している。
textbfAgentベースのtextbfSimulated textbfFinancial textbfMarket (ASFM) を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:54:12Z) - Logic-Q: Improving Deep Reinforcement Learning-based Quantitative Trading via Program Sketch-based Tuning [9.039809980024852]
論理Qと呼ばれるQトレーディングのための普遍的な論理誘導型深層強化学習フレームワークを提案する。
特に、Logic-Qは、スケッチによるプログラム合成を採用し、軽量でプラグアンドプレイの市場トレンド対応のプログラムスケッチを活用して、市場の動向を決定するロジック誘導モデル設計を導入する。
2つの一般的な量的トレーディングタスクの広範囲な評価は、Logic-Qが従来の最先端DRLトレーディング戦略の性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2023-10-09T09:20:13Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。