論文の概要: LLMs for Game Theory: Entropy-Guided In-Context Learning and Adaptive CoT Reasoning
- arxiv url: http://arxiv.org/abs/2601.10775v1
- Date: Thu, 15 Jan 2026 16:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.250696
- Title: LLMs for Game Theory: Entropy-Guided In-Context Learning and Adaptive CoT Reasoning
- Title(参考訳): LLMs for Game Theory: Entropy-Guided In-Context Learning and Adaptive CoT Reasoning
- Authors: Tommaso Felice Banfi, Sashenka Gamage,
- Abstract要約: 離散的なゲーム理論タスクにおける推論のための新しい LLM ベースのフレームワークを提案する。
この手法は、文脈学習とエントロピー誘導チェーン・オブ・シント(CoT)推論と適応文脈検索を統合した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel LLM-based framework for reasoning in discrete, game-theoretic tasks, illustrated with \emph{Tic-Tac-Toe}. The method integrates in-context learning with entropy-guided chain-of-thought (CoT) reasoning and adaptive context retrieval. The model dynamically adjusts both the number of retrieved examples and reasoning paths according to token-level uncertainty: concise reasoning with minimal context is used when uncertainty is low, whereas higher uncertainty triggers expanded multi-path CoT exploration. Experimental evaluation against a sub-optimal algorithmic opponent shows that entropy-aware adaptive reasoning substantially improves decision quality, increasing the average game outcome from \(-11.6\%\) with the baseline LLM to \(+9.5\%\) with entropy-guided adaptive reasoning over 100 games (win = +1, tie = 0, loss = -1), while maintaining a relatively low number of LLM queries per game. Statistical validation confirms that the improvement is significant, and correlation analysis reveals a negative association between token-level entropy and move optimality. These findings demonstrate that uncertainty-guided adaptive reasoning effectively enhances LLM performance in sequential decision-making environments.
- Abstract(参考訳): 本稿では,ゲーム理論の離散的タスクにおける推論のための新しい LLM ベースのフレームワークを提案し,それを \emph{Tic-Tac-Toe} で示している。
この手法は、文脈学習とエントロピー誘導チェーン・オブ・シント(CoT)推論と適応文脈検索を統合した。
このモデルは、トークンレベルの不確実性に応じて、検索されたサンプルの数と推論経路の両方を動的に調整する: 最小コンテキストの簡潔推論は、不確実性が低いときに使用されるが、高い不確実性トリガーはマルチパスCoT探索を拡張する。
準最適アルゴリズムに対する実験的評価により、エントロピー対応適応推論は決定品質を著しく向上させ、平均ゲーム結果がベースラインLLMの \(-11.6\%\) から \(+9.5\%\) に増加し、100ゲーム以上のエントロピー誘導適応推論(win = +1, tie = 0, loss = -1)が、ゲーム当たりの LLM クエリの相対的な少なさを維持しながら、エントロピー誘導適応推論(win = +1, tie = 0, loss = -1)となる。
統計的検証では、改善が重要であることが確認され、相関解析によりトークンレベルのエントロピーと移動の最適性の間に負の相関が明らかになる。
これらの結果から,不確実性誘導適応推論は逐次意思決定環境におけるLLM性能を効果的に向上させることが示された。
関連論文リスト
- Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning [30.889495810312624]
本稿では,意味レベルとトークンレベルの両方でエントロピー信号を活用して推論を改善する,効率的な強化学習フレームワークを提案する。
データ構造とアルゴリズム設計を協調的に最適化することにより,エントロピー崩壊を効果的に軽減し,推論を強化する。
論文 参考訳(メタデータ) (2025-12-04T01:09:17Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Learning to Ponder: Adaptive Reasoning in Latent Space [2.8835557003761747]
我々は、潜時ステアリングによるインスタンス適応推論計算を割り当てる単一グラフのバックボーン学習自由フレームワークFR-Ponderを提案する。
GSM8KとMATH500では、FR-Ponderは計算精度のフロンティアを改善し、一致した精度で低いFLOPを提供し、早期出力ベースラインと比較する。
論文 参考訳(メタデータ) (2025-09-29T03:21:42Z) - Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文 参考訳(メタデータ) (2025-08-05T11:48:18Z) - DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided MCTS [28.828541350757714]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRは、MCTS(Monte Carlo Tree Search)と適応経路評価を統合し、コンテキスト対応のKGQAを実現する。
複数のKGQAベンチマークの実験では、DAMRはSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。