論文の概要: The Price of Thought: A Multilingual Analysis of Reasoning, Performance, and Cost of Negotiation in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08098v1
- Date: Thu, 09 Oct 2025 11:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.042335
- Title: The Price of Thought: A Multilingual Analysis of Reasoning, Performance, and Cost of Negotiation in Large Language Models
- Title(参考訳): 思考の価格:大規模言語モデルにおける推論・性能・コストの多言語分析
- Authors: Sherzod Hakimov, Roland Bernard, Tim Leiber, Karl Osswald, Kristina Richert, Ruilin Yang, Raffaella Bernardi, David Schlangen,
- Abstract要約: 交渉は、戦略的に判断し、対立者をモデル化し、競争との協力のバランスを取る能力を必要とするため、AIエージェントにとって根本的な課題である。
商業LLMとオープンウェイトLLMの交渉能力に対する(LLM-)推論の効果を体系的に評価した最初の総合的研究を行った。
3つの多様な対話ゲームにまたがるセルフプレイ設定を用いて、性能とコストのトレードオフ、推論プロセスの言語一貫性、そしてモデルが提示する戦略的適応の性質を分析する。
- 参考スコア(独自算出の注目度): 13.796041020333925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Negotiation is a fundamental challenge for AI agents, as it requires an ability to reason strategically, model opponents, and balance cooperation with competition. We conduct the first comprehensive study systematically evaluating the effect of (LLM-)reasoning on the negotiation abilities of both commercial and open-weight LLMs, and do this across three languages. Using a self-play setup across three diverse dialogue games, we analyse trade-offs between performance and cost, the language consistency of reasoning processes, and the nature of strategic adaptation exhibited by models. Our findings show that enabling reasoning-that is, scaling test time compute-significantly improves negotiation outcomes by enhancing collaboration and helping models overcome task complexities, but comes at a substantial computational cost: reasoning improves GPT-5's performance by 31.4 % while increasing its cost by nearly 400 %. Most critically, we uncover a significant multilingual reasoning distinction: open-weight models consistently switch to English for their internal reasoning steps, even when negotiating in German or Italian (and thus possibly impacting potential explainability gains through the disclosure of reasoning traces), while leading commercial models maintain language consistency between their reasoning and final output.
- Abstract(参考訳): 交渉は、戦略的に判断し、対立者をモデル化し、競争との協力のバランスを取る能力を必要とするため、AIエージェントにとって根本的な課題である。
商業LLMとオープンウェイトLLMの交渉能力に対する(LLM-)推論の効果を体系的に評価した最初の総合的研究を行い,これを3言語にわたって実施した。
3つの多様な対話ゲームにまたがるセルフプレイ設定を用いて、性能とコストのトレードオフ、推論プロセスの言語一貫性、そしてモデルが提示する戦略的適応の性質を分析する。
本研究の結果から,テストタイムのスケールアップは,作業の複雑度を克服する上で,協調性を高め,モデルを支援することによって交渉成果を著しく向上するが,計算コストは相当に高く,推理によりGPT-5の性能は31.4%向上し,コストは400%近く向上することがわかった。
オープンウェイトモデルは、ドイツ語やイタリア語で交渉しても、常に英語に切り替える(したがって、推論トレースの開示を通じて、潜在的な説明可能性に影響を及ぼす可能性がある)一方で、商業モデルは、推論と最終的なアウトプットの間の言語一貫性を維持している。
関連論文リスト
- Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective [52.452449102961225]
本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-02T17:49:49Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [0.0]
様々なオープンウェイトモデルを用いて,元の知見を検証した。
本稿では,エージェント間相互作用を伴わずに交渉を成功させるかどうかを検証するためのコミュニケーションフリーのベースラインを提案する。
この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
論文 参考訳(メタデータ) (2025-02-22T14:28:49Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [47.977032883078664]
我々は,ビジネス交渉における対話者を支援する大規模言語モデル(LLM)に基づく支援エージェントを開発する。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
3つの異なる交渉トピックにわたる交渉において,その効果を示すための実証的証拠を豊富に提供する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。