論文の概要: Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making
- arxiv url: http://arxiv.org/abs/2506.12012v1
- Date: Fri, 13 Jun 2025 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.918131
- Title: Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making
- Title(参考訳): 戦略ゲームによるLLM推論プロセスの追跡:計画・修正・資源制約決定のためのフレームワーク
- Authors: Xiaopeng Yuan, Xingjian Zhang, Ke Xu, Yifan Xu, Lijun Yu, Jindong Wang, Yushun Dong, Haohan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使われている。
モデル動作の理解と信頼性向上には,内部プロセスの測定が不可欠である,と我々は主張する。
計画,修正,資源制約のある意思決定という3つの中核的な側面に沿ってLCMを評価する枠組みを導入する。
- 参考スコア(独自算出の注目度): 38.75183725659772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for tasks that require complex reasoning. Most benchmarks focus on final outcomes but overlook the intermediate reasoning steps - such as planning, revision, and decision making under resource constraints. We argue that measuring these internal processes is essential for understanding model behavior and improving reliability. We propose using strategic games as a natural evaluation environment: closed, rule-based systems with clear states, limited resources, and automatic feedback. We introduce a framework that evaluates LLMs along three core dimensions: planning, revision, and resource-constrained decision making. To operationalize this, we define metrics beyond win rate, including overcorrection risk rate, correction success rate, improvement slope, and over-budget ratio. In 4320 adversarial rounds across 12 leading models, ChatGPT-o3-mini achieves the top composite score, with a win rate of 74.7 percent, a correction success rate of 78.6 percent, and an improvement slope of 0.041. By contrast, Qwen-Plus, despite an overcorrection risk rate of 81.6 percent, wins only 25.6 percent of its matches - primarily due to excessive resource use. We also observe a negative correlation between overcorrection risk rate and correction success rate (Pearson r = -0.51, p = 0.093), suggesting that more frequent edits do not always improve outcomes. Our findings highlight the value of assessing not only what LLMs decide but how they arrive at those decisions
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使われている。
ほとんどのベンチマークは最終結果にフォーカスするが、リソース制約の下での計画、修正、意思決定といった中間的な推論ステップを見落としている。
モデル動作の理解と信頼性向上には,これらの内部プロセスの測定が不可欠である,と我々は主張する。
そこで我々は, 明確な状態を持つクローズドなルールベースシステム, 限られたリソース, 自動フィードバックなど, 戦略ゲームを自然な評価環境として活用することを提案する。
計画,修正,資源制約のある意思決定という3つの中核的な側面に沿ってLCMを評価する枠組みを導入する。
これを運用するために、オーバーコレクションリスク率、修正成功率、改善スロープ、過予算比率など、勝利率を超えるメトリクスを定義します。
12モデルにわたる4320回の対戦ラウンドにおいて、ChatGPT-o3-miniは74.7%の勝利率、78.6%の修正成功率、0.041の上昇率で上位の合成スコアを達成している。
対照的に、Qwen-Plusは81.6%のオーバーコレーションリスク率にもかかわらず、試合の25.6%しか勝利していない。
Pearson r = -0.51, p = 0.093) と補正成功率との間には負の相関がみられ、より頻繁な編集が必ずしも結果を改善するとは限らないことが示唆された。
我々の知見は、LCMが決定するだけでなく、その決定にどう到達するかを評価することの価値を強調している。
関連論文リスト
- Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization [5.414146574747448]
本研究では、信頼できない3DoFのポーズ予測をフィルタリングするパーセンタイルに基づく拒絶戦略を導入する。
実験結果から, より厳密な不確実性しきい値を適用することにより, ポーズ精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-10T12:07:24Z) - Investigating Non-Transitivity in LLM-as-a-Judge [24.358802214160697]
本稿では,AlpacaEvalフレームワークにおける非透過性の存在について検討し,モデルランキングに対するその影響を分析する。
ラウンドロビントーナメントの計算コストに対処するため,スイス・ワイズ・イテレーティブ・マッチメイキング(Swim)トーナメントを提案する。
論文 参考訳(メタデータ) (2025-02-19T19:59:16Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。