論文の概要: Game of Thought: Robust Information Seeking with Large Language Models Using Game Theory
- arxiv url: http://arxiv.org/abs/2602.01708v1
- Date: Mon, 02 Feb 2026 06:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.952078
- Title: Game of Thought: Robust Information Seeking with Large Language Models Using Game Theory
- Title(参考訳): Game of Thought: ゲーム理論を用いた大規模言語モデルによるロバスト情報検索
- Authors: Langyuan Cui, Chun Kai Ling, Hwee Tou Ng,
- Abstract要約: 大規模言語モデル(LLM)の情報探索能力を評価するために,20質問ゲームを用いた。
本稿では,ゲーム理論を応用したゲーム思考(Game of Thought, GoT)を提案し,ゲームの限定変量に対するナッシュ均衡(NE)戦略を近似する。
- 参考スコア(独自算出の注目度): 37.51238507036326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in real-world scenarios where they may lack sufficient information to complete a given task. In such settings, the ability to actively seek out missing information becomes a critical capability. Existing approaches to enhancing this ability often rely on simplifying assumptions that degrade \textit{worst-case} performance. This is an issue with serious implications in high-stakes applications. In this work, we use the game of Twenty Questions to evaluate the information-seeking ability of LLMs. We introduce and formalize its adversarial counterpart, the Strategic Language Search (SLS) problem along with its variants as a two-player zero-sum extensive form game. We propose Game of Thought (GoT), a framework that applies game-theoretic techniques to approximate a Nash equilibrium (NE) strategy for the restricted variant of the game. Empirical results demonstrate that our approach consistently improves worst-case performance compared to (1) direct prompting-based methods and (2) heuristic-guided search methods across all tested settings.
- Abstract(参考訳): 大きな言語モデル(LLM)は、与えられたタスクを完了するための十分な情報が不足している可能性がある現実のシナリオに、ますますデプロイされている。
このような設定では、行方不明情報を積極的に見つけ出す能力が重要な機能となる。
この能力を向上するための既存のアプローチは、しばしば、textit{worst-case}パフォーマンスを低下させる仮定を単純化することに依存する。
これは、高精細なアプリケーションに深刻な意味を持つ問題である。
本研究では,LLMにおける情報探索能力を評価するために,Twenty Questionsというゲームを用いた。
本稿では,SLS(Strategic Language Search)問題と,2プレイヤーゼロサム拡張形式ゲームとして導入・形式化する。
本稿では,ゲーム理論を応用したゲーム思考(Game of Thought, GoT)を提案し,ゲームの限定変量に対するナッシュ均衡(NE)戦略を近似する。
実験の結果,(1)直接的プロンプト法と(2)ヒューリスティック誘導探索法と比較すると,本手法は最悪のケース性能を常に向上することが示された。
関連論文リスト
- Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:33:30Z) - Look-ahead Reasoning with a Learned Model in Imperfect Information Games [3.4935179780034242]
本稿では,エージェントと環境の相互作用から不完全情報ゲームの抽象モデルを直接学習するアルゴリズムを提案する。
テスト期間中、このトレーニングされたモデルは、ルックアヘッド推論を実行するために使用されます。
LAMIRは十分なキャパシティで正確なゲーム構造を学習し、限られたキャパシティではまだ貴重な抽象化を学習していることを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-06T17:26:56Z) - Code World Models for General Game Playing [22.382021070682256]
我々はLarge Language Modelsを用いて、自然言語規則とゲーム軌跡をPythonコードとして表現された形式的で実行可能な世界モデルに変換する。
この生成モデルは、高性能計画アルゴリズムの検証可能なシミュレーションエンジンとして機能する。
提案手法は,10ゲーム中9ゲームにおいて,Gemini 2.5 Proより優れているか,あるいは一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-06T07:16:07Z) - Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy [37.54766836927425]
本報告では,任意のローカル言語モデル(LLM)を,微調整や専門訓練を伴わずにフルプレッシャーの外交を行えるようにするための,最初の評価手法を提案する。
外交のゲーム状態の複雑さと情報密度が高いため、以前の作業ではフロンティアLSM(ファインチューニング)が必要だった。
我々のハーネスは、微調整の必要性を排除し、LLMの戦略的推論の評価を民主化し、これらの能力が広く使われているLLMからどのように自然に現れるかについての洞察を提供する。
論文 参考訳(メタデータ) (2025-08-10T21:07:08Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。