論文の概要: The Price of Thought: A Multilingual Analysis of Reasoning, Performance, and Cost of Negotiation in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08098v1
- Date: Thu, 09 Oct 2025 11:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.042335
- Title: The Price of Thought: A Multilingual Analysis of Reasoning, Performance, and Cost of Negotiation in Large Language Models
- Title(参考訳): 思考の価格:大規模言語モデルにおける推論・性能・コストの多言語分析
- Authors: Sherzod Hakimov, Roland Bernard, Tim Leiber, Karl Osswald, Kristina Richert, Ruilin Yang, Raffaella Bernardi, David Schlangen,
- Abstract要約: 交渉は、戦略的に判断し、対立者をモデル化し、競争との協力のバランスを取る能力を必要とするため、AIエージェントにとって根本的な課題である。
商業LLMとオープンウェイトLLMの交渉能力に対する(LLM-)推論の効果を体系的に評価した最初の総合的研究を行った。
3つの多様な対話ゲームにまたがるセルフプレイ設定を用いて、性能とコストのトレードオフ、推論プロセスの言語一貫性、そしてモデルが提示する戦略的適応の性質を分析する。
- 参考スコア(独自算出の注目度): 13.796041020333925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Negotiation is a fundamental challenge for AI agents, as it requires an ability to reason strategically, model opponents, and balance cooperation with competition. We conduct the first comprehensive study systematically evaluating the effect of (LLM-)reasoning on the negotiation abilities of both commercial and open-weight LLMs, and do this across three languages. Using a self-play setup across three diverse dialogue games, we analyse trade-offs between performance and cost, the language consistency of reasoning processes, and the nature of strategic adaptation exhibited by models. Our findings show that enabling reasoning-that is, scaling test time compute-significantly improves negotiation outcomes by enhancing collaboration and helping models overcome task complexities, but comes at a substantial computational cost: reasoning improves GPT-5's performance by 31.4 % while increasing its cost by nearly 400 %. Most critically, we uncover a significant multilingual reasoning distinction: open-weight models consistently switch to English for their internal reasoning steps, even when negotiating in German or Italian (and thus possibly impacting potential explainability gains through the disclosure of reasoning traces), while leading commercial models maintain language consistency between their reasoning and final output.
- Abstract(参考訳): 交渉は、戦略的に判断し、対立者をモデル化し、競争との協力のバランスを取る能力を必要とするため、AIエージェントにとって根本的な課題である。
商業LLMとオープンウェイトLLMの交渉能力に対する(LLM-)推論の効果を体系的に評価した最初の総合的研究を行い,これを3言語にわたって実施した。
3つの多様な対話ゲームにまたがるセルフプレイ設定を用いて、性能とコストのトレードオフ、推論プロセスの言語一貫性、そしてモデルが提示する戦略的適応の性質を分析する。
本研究の結果から,テストタイムのスケールアップは,作業の複雑度を克服する上で,協調性を高め,モデルを支援することによって交渉成果を著しく向上するが,計算コストは相当に高く,推理によりGPT-5の性能は31.4%向上し,コストは400%近く向上することがわかった。
オープンウェイトモデルは、ドイツ語やイタリア語で交渉しても、常に英語に切り替える(したがって、推論トレースの開示を通じて、潜在的な説明可能性に影響を及ぼす可能性がある)一方で、商業モデルは、推論と最終的なアウトプットの間の言語一貫性を維持している。
関連論文リスト
- MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games [70.37904949359938]
我々は,プライベート情報に関する効果的なコミュニケーションを必要とする協調ゲーム群を用いて,マルチターンインタラクションにおける言語モデルの評価を行った。
言語モデルでは,非対話的なベースラインシナリオを改善するために,対話的なコラボレーションを利用できないことがわかった。
我々は,これらの対話の言語的特徴を分析し,サイコフナンシー,情報密度,談話コヒーレンスの役割を評価する。
論文 参考訳(メタデータ) (2026-02-27T17:13:20Z) - PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences [13.759960839511807]
マルチエージェントインタラクションを基盤とした大規模ベンチマークベンチマークであるPieArenaを紹介する。
代表的フロンティア言語エージェント(GPT-5)が、訓練されたビジネススクールの生徒と一致したり、成績が良くなった場合の、人間-専門家レベルのパフォーマンスの体系的証拠を見出した。
論文 参考訳(メタデータ) (2026-02-05T04:52:20Z) - Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - The Language of Bargaining: Linguistic Effects in LLM Negotiations [4.300053384667414]
交渉はソーシャルインテリジェンスの中核的な要素であり、エージェントは戦略的推論、協力、社会規範のバランスを取る必要がある。
最近の研究は、LLMがマルチターン交渉を行うことができることを示しているが、ほぼ全ての評価は英語でのみ行われる。
我々は,ゲームルール,モデルパラメータ,インセンティブをすべての条件で一定に保持することにより,英語と4つのIndic framingにまたがる言語効果を体系的に分離する。
論文 参考訳(メタデータ) (2026-01-07T20:49:45Z) - Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective [52.452449102961225]
本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-02T17:49:49Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [0.0]
様々なオープンウェイトモデルを用いて,元の知見を検証した。
本稿では,エージェント間相互作用を伴わずに交渉を成功させるかどうかを検証するためのコミュニケーションフリーのベースラインを提案する。
この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
論文 参考訳(メタデータ) (2025-02-22T14:28:49Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [47.977032883078664]
我々は,ビジネス交渉における対話者を支援する大規模言語モデル(LLM)に基づく支援エージェントを開発する。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
3つの異なる交渉トピックにわたる交渉において,その効果を示すための実証的証拠を豊富に提供する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。