Fugu-MT 論文翻訳(概要): When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

論文の概要: When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

arxiv url: http://arxiv.org/abs/2604.11840v1
Date: Sun, 12 Apr 2026 13:36:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.019224
Title: When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation
Title（参考訳）: マルチエージェントLDMネゴシエーションにおけるソルバー・サンプラーミスマッチ
Authors: Sandro Andric,
Abstract要約: 一般的な仮定は、より強い推論はシミュレーションの忠実性を改善するべきであるというものである。この仮定は、目的が戦略的問題を解決することではなく、有界に有理な振る舞いをサンプリングすることであるときに失敗する可能性がある。従来のシミュレーション作業から適応した3つのマルチエージェントネゴシエーション環境において,この解法とサンプラーのミスマッチについて検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are increasingly used as agents in social, economic, and policy simulations. A common assumption is that stronger reasoning should improve simulation fidelity. We argue that this assumption can fail when the objective is not to solve a strategic problem, but to sample plausible boundedly rational behavior. In such settings, reasoning-enhanced models can become better solvers and worse simulators: they can over-optimize for strategically dominant actions, collapse compromise-oriented terminal behavior, and sometimes exhibit a diversity-without-fidelity pattern in which local variation survives without outcome-level fidelity. We study this solver-sampler mismatch in three multi-agent negotiation environments adapted from earlier simulation work: an ambiguous fragmented-authority trading-limits scenario, an ambiguous unified-opposition trading-limits scenario, and a new-domain grid-curtailment case in emergency electricity management. We compare three reflection conditions, no reflection, bounded reflection, and native reasoning, across two primary model families and then extend the same protocol to direct OpenAI runs with GPT-4.1 and GPT-5.2. Across all three experiments, bounded reflection produces substantially more diverse and compromise-oriented trajectories than either no reflection or native reasoning. In the direct OpenAI extension, GPT-5.2 native ends in authority decisions in 45 of 45 runs across the three experiments, while GPT-5.2 bounded recovers compromise outcomes in every environment. The contribution is not a claim that reasoning is generally harmful. It is a methodological warning: model capability and simulation fidelity are different objectives, and behavioral simulation should qualify models as samplers, not only as solvers.
Abstract（参考訳）: 大規模言語モデルは、社会、経済、政策シミュレーションのエージェントとしてますます使われている。一般的な仮定は、より強い推論はシミュレーションの忠実性を改善するべきであるというものである。この仮定は、目的が戦略的問題を解決することではなく、有界に有理な振る舞いをサンプリングすることであるときに失敗する可能性がある。戦略的に支配的な行動に対して過度に最適化し、妥協指向の端末動作を壊し、時には局所的な変動が結果レベルの忠実さなしで生き残るような多様性のない忠実なパターンを示すことができる。従来のシミュレーション作業から得られた3つのマルチエージェント交渉環境において,この解法とサンプラーのミスマッチについて検討した。 GPT-4.1 と GPT-5.2 で直接動作する OpenAI のプロトコルを拡張するため、2 つのプライマリモデルファミリ間で、反射のない3 つのリフレクション条件、有界反射、およびネイティブ推論を比較した。これら3つの実験の中で、有界反射は、反射やネイティブな推論よりもかなり多様性があり、妥協指向の軌道を生成する。直接のOpenAI拡張では、GPT-5.2が45の権限決定で終了し、GPT-5.2はすべての環境における妥協結果を回復する。その貢献は、推論が一般的に有害であるという主張ではない。モデル能力とシミュレーションの忠実度は異なる目的であり、行動シミュレーションはモデルがソルバとしてだけでなく、サンプルとして評価されるべきである。

関連論文リスト

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文参考訳（メタデータ） (2026-04-09T15:26:21Z)
Amortized Inference for Correlated Discrete Choice Models via Equivariant Neural Networks [0.0]
本稿では,ニューラルネットワークエミュレータを用いた一般的な誤差分布に対する選択確率の近似手法を提案する。我々は,ソボレフトレーニングを用いて,勾配マッチングペナルティによる可能性損失を増大させ,エミュレータが選択確率と導関数の両方を学習できるようにする。
論文参考訳（メタデータ） (2026-03-25T18:30:11Z)
Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation [54.29523408543184]
シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
論文参考訳（メタデータ） (2026-03-10T00:51:47Z)
AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation [22.833977971686966]
本稿では、フロンティアAIリスク評価のための自動化フレームワークであるAutoControl Arenaを紹介する。私たちは柔軟性を維持しながら幻覚を緩和します。この原則は3エージェントフレームワークを通じてインスタンス化され、既存のシミュレータよりも98%以上のエンドツーエンドの成功と60%の人間の好みを達成する。
論文参考訳（メタデータ） (2026-03-08T02:49:45Z)
CODE: A Contradiction-Based Deliberation Extension Framework for Overthinking Attacks on Retrieval-Augmented Generation [43.85448261466922]
我々はContradiction-Based Deliberation Extension (CODE) というエンドツーエンド攻撃フレームワークを提案する。 CODEは、知識ベースに注入される中毒サンプルを構築するためのマルチエージェントアーキテクチャを開発している。実験の結果、CODEはタスク性能を劣化させることなく5.32x-24.72倍のトークン消費を発生させることが示された。
論文参考訳（メタデータ） (2026-01-19T14:52:31Z)
Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。 ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。複数のベンチマーク実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2026-01-08T06:57:03Z)
Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文参考訳（メタデータ） (2025-02-19T05:30:46Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
Policy Learning for Robust Markov Decision Process with a Mismatched Generative Model [42.28001762749647]
医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。本稿では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。我々のゴールは、さらなる技術的困難をもたらす、摂動テスト環境に対するほぼ最適のロバストなポリシーを特定することです。
論文参考訳（メタデータ） (2022-03-13T06:37:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。