論文の概要: CSP4SDG: Constraint and Information-Theory Based Role Identification in Social Deduction Games with LLM-Enhanced Inference
- arxiv url: http://arxiv.org/abs/2511.06175v1
- Date: Sun, 09 Nov 2025 01:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.794641
- Title: CSP4SDG: Constraint and Information-Theory Based Role Identification in Social Deduction Games with LLM-Enhanced Inference
- Title(参考訳): CSP4SDG: LLM強化推論を用いたソーシャル推論ゲームにおける制約と情報理論に基づく役割同定
- Authors: Kaijie Xu, Fandi Meng, Clark Verbrugge, Simon Lucas,
- Abstract要約: Avalon、Mafia、Werewolfといったソーシャル・ドダクション・ゲーム(SDG)では、プレイヤーは自身のアイデンティティを隠蔽し、意図的に他人を誤解させる。
我々は,ゲームプレイを客観的に分析する確率的制約満足度フレームワークであるCSP4SDGを紹介する。
本研究は,情報理論を用いた確率論的推論がSDGのためのスケーラブルな代替あるいは補間重み付きニューラルネットワークであることを示す。
- 参考スコア(独自算出の注目度): 3.1263038719799745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Social Deduction Games (SDGs) such as Avalon, Mafia, and Werewolf, players conceal their identities and deliberately mislead others, making hidden-role inference a central and demanding task. Accurate role identification, which forms the basis of an agent's belief state, is therefore the keystone for both human and AI performance. We introduce CSP4SDG, a probabilistic, constraint-satisfaction framework that analyses gameplay objectively. Game events and dialogue are mapped to four linguistically-agnostic constraint classes-evidence, phenomena, assertions, and hypotheses. Hard constraints prune impossible role assignments, while weighted soft constraints score the remainder; information-gain weighting links each hypothesis to its expected value under entropy reduction, and a simple closed-form scoring rule guarantees that truthful assertions converge to classical hard logic with minimum error. The resulting posterior over roles is fully interpretable and updates in real time. Experiments on three public datasets show that CSP4SDG (i) outperforms LLM-based baselines in every inference scenario, and (ii) boosts LLMs when supplied as an auxiliary "reasoning tool." Our study validates that principled probabilistic reasoning with information theory is a scalable alternative-or complement-to heavy-weight neural models for SDGs.
- Abstract(参考訳): Avalon、Mafia、Werewolfといったソーシャル・ドダクション・ゲーム(SDG)では、プレイヤーは自分のアイデンティティを隠蔽し、意図的に他人を誤解させ、隠れロール推論を中心的で要求の多いタスクにする。
したがって、エージェントの信念状態の基礎となる正確な役割識別は、人間とAIの両方のパフォーマンスの鍵となる。
我々は,ゲームプレイを客観的に分析する確率的制約満足度フレームワークであるCSP4SDGを紹介する。
ゲームイベントと対話は言語に依存しない4つの制約クラス(証拠、現象、主張、仮説)にマッピングされる。
重み付けされたソフト制約は残りをスコアし、情報ゲイン重み付けは各仮説をエントロピー還元の下で期待値にリンクし、単純なクローズドフォームスコアリングルールは、真理的な主張が最小誤差で古典的なハードロジックに収束することを保証している。
その結果、後続の役割は完全に解釈可能となり、リアルタイムで更新される。
3つの公開データセットの実験により、CSP4SDGが示される
i) 推論シナリオ毎に LLM ベースのベースラインを上回り、
(ii)補助的な「放水工具」として供給された場合、LSMを増強する。
本研究は,情報理論を用いた確率論的推論がSDGのためのスケーラブルな代替または補間重み付きニューラルネットワークであることを示す。
関連論文リスト
- Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - The Knowledge-Reasoning Dissociation: Fundamental Limitations of LLMs in Clinical Natural Language Inference [13.59675117792588]
大規模言語モデルは、データとパラメータをスケーリングすることで、ますます構造化され、一般化可能な内部表現を取得すると仮定されることが多い。
本研究は,4つの理性家族からなる臨床トライアル自然言語帰属ベンチマークを導入することで,この仮定を疑問視する。
各項目は、ターゲットとなるグラウンド知識とメタレベル推論検証プローブと組み合わせて、推論の失敗から事実アクセスの失敗を解離させる。
論文 参考訳(メタデータ) (2025-08-14T16:01:10Z) - Incentivizing Truthful Language Models via Peer Elicitation Games [13.262897952363147]
大きな言語モデル(LLM)は強力な生成能力を示しているが、矛盾や幻覚の傾向が強い。
我々は,異なるベースモデルからインスタンス化されたジェネレータと複数の識別器を含むピア・エリケーション機構を通じて,LPMを整列させる学習自由ゲーム理論フレームワークであるPeer Elicitation Games (PEG)を紹介した。
論文 参考訳(メタデータ) (2025-05-19T18:16:58Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [15.560280546809457]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。
提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
精度は4.0%から44.3%に向上した。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。