論文の概要: Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making
- arxiv url: http://arxiv.org/abs/2506.12012v1
- Date: Fri, 13 Jun 2025 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.918131
- Title: Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making
- Title(参考訳): 戦略ゲームによるLLM推論プロセスの追跡:計画・修正・資源制約決定のためのフレームワーク
- Authors: Xiaopeng Yuan, Xingjian Zhang, Ke Xu, Yifan Xu, Lijun Yu, Jindong Wang, Yushun Dong, Haohan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使われている。
モデル動作の理解と信頼性向上には,内部プロセスの測定が不可欠である,と我々は主張する。
計画,修正,資源制約のある意思決定という3つの中核的な側面に沿ってLCMを評価する枠組みを導入する。
- 参考スコア(独自算出の注目度): 38.75183725659772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for tasks that require complex reasoning. Most benchmarks focus on final outcomes but overlook the intermediate reasoning steps - such as planning, revision, and decision making under resource constraints. We argue that measuring these internal processes is essential for understanding model behavior and improving reliability. We propose using strategic games as a natural evaluation environment: closed, rule-based systems with clear states, limited resources, and automatic feedback. We introduce a framework that evaluates LLMs along three core dimensions: planning, revision, and resource-constrained decision making. To operationalize this, we define metrics beyond win rate, including overcorrection risk rate, correction success rate, improvement slope, and over-budget ratio. In 4320 adversarial rounds across 12 leading models, ChatGPT-o3-mini achieves the top composite score, with a win rate of 74.7 percent, a correction success rate of 78.6 percent, and an improvement slope of 0.041. By contrast, Qwen-Plus, despite an overcorrection risk rate of 81.6 percent, wins only 25.6 percent of its matches - primarily due to excessive resource use. We also observe a negative correlation between overcorrection risk rate and correction success rate (Pearson r = -0.51, p = 0.093), suggesting that more frequent edits do not always improve outcomes. Our findings highlight the value of assessing not only what LLMs decide but how they arrive at those decisions
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使われている。
ほとんどのベンチマークは最終結果にフォーカスするが、リソース制約の下での計画、修正、意思決定といった中間的な推論ステップを見落としている。
モデル動作の理解と信頼性向上には,これらの内部プロセスの測定が不可欠である,と我々は主張する。
そこで我々は, 明確な状態を持つクローズドなルールベースシステム, 限られたリソース, 自動フィードバックなど, 戦略ゲームを自然な評価環境として活用することを提案する。
計画,修正,資源制約のある意思決定という3つの中核的な側面に沿ってLCMを評価する枠組みを導入する。
これを運用するために、オーバーコレクションリスク率、修正成功率、改善スロープ、過予算比率など、勝利率を超えるメトリクスを定義します。
12モデルにわたる4320回の対戦ラウンドにおいて、ChatGPT-o3-miniは74.7%の勝利率、78.6%の修正成功率、0.041の上昇率で上位の合成スコアを達成している。
対照的に、Qwen-Plusは81.6%のオーバーコレーションリスク率にもかかわらず、試合の25.6%しか勝利していない。
Pearson r = -0.51, p = 0.093) と補正成功率との間には負の相関がみられ、より頻繁な編集が必ずしも結果を改善するとは限らないことが示唆された。
我々の知見は、LCMが決定するだけでなく、その決定にどう到達するかを評価することの価値を強調している。
関連論文リスト
- FairReason: Balancing Reasoning and Social Bias in MLLMs [50.618158642714505]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Evaluating the Sensitivity of LLMs to Prior Context [2.377922603550519]
大規模言語モデル(LLM)は、多ターン対話やその他の持続的な対話シナリオにますます多くデプロイされている。
我々は,文脈変化に対する感度を測定するために,先行文脈のボリュームと性質を変化させる新しいベンチマークのセットを導入する。
その結果,複数質問に対するLLM性能は,多ターンインタラクションにおいて劇的に低下することがわかった。
論文 参考訳(メタデータ) (2025-05-29T16:09:32Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization [5.414146574747448]
本研究では、信頼できない3DoFのポーズ予測をフィルタリングするパーセンタイルに基づく拒絶戦略を導入する。
実験結果から, より厳密な不確実性しきい値を適用することにより, ポーズ精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-10T12:07:24Z) - Investigating Non-Transitivity in LLM-as-a-Judge [24.358802214160697]
本稿では,AlpacaEvalフレームワークにおける非透過性の存在について検討し,モデルランキングに対するその影響を分析する。
ラウンドロビントーナメントの計算コストに対処するため,スイス・ワイズ・イテレーティブ・マッチメイキング(Swim)トーナメントを提案する。
論文 参考訳(メタデータ) (2025-02-19T19:59:16Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。