論文の概要: Can LLM Teams Play What? Where? When?
- arxiv url: http://arxiv.org/abs/2605.30459v1
- Date: Thu, 28 May 2026 18:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.173181
- Title: Can LLM Teams Play What? Where? When?
- Title(参考訳): LLMチームで何ができるのか?
- Authors: Anastasia Kotelnikova, Viktor Byzov, Maria Dolzhenkova, Evgeny Kotelnikov,
- Abstract要約: チームベースインタラクションが大規模言語モデル(LLM)のパフォーマンスを向上するかどうかを検討する。
投票、沈黙チーム(キャプテンが最終回答を観察する)、話しチーム(キャプテンが回答と合理性の両方を観察する)の3つのチーム戦略を紹介します。
データ漏洩を最小限に抑えるため、2025年に発表された572個のChGK質問からなるデータセット上でこれらの戦略を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) remain limited on tasks requiring indirect reasoning, cultural knowledge, and coordinated hypothesis testing. We investigate whether team-based interaction improves LLM performance in What? Where? When? (ChGK), a quiz game designed to reward collective reasoning. We introduce three team strategies: Voting, Silent Team (the captain observes final answers), and Talkative Team (the captain observes both answers and rationales). To minimize data leakage, we evaluate these strategies on a dataset consisting of 572 ChGK questions released in 2025. Using six recent large-scale open models, we show that team-based strategies outperform single-model baselines, yielding gains of up to 20 percentage points in accuracy. The best team achieves 44.23% accuracy, and approaches human team performance on questions with available human statistics. Analysis of inter-model diversity reveals that disagreement strongly predicts lower accuracy, but explanatory communication substantially mitigates performance drops. We further examine captain behavior and find no evidence of self-preference bias; access to peer rationales improves captain judgments. Overall, LLM teams function primarily as answer selection and error-filtering mechanisms rather than generators of novel solutions. Our findings highlight the importance of interaction and suggest adaptive strategies as a promising direction for multi-agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、間接的推論、文化知識、協調仮説テストを必要とするタスクに限られている。
チームベースのインタラクションがLLMのパフォーマンスを向上するかどうかを検討する。
どこ?
いつ?
(ChGK) 集団推論に報いるクイズゲーム。
投票、沈黙チーム(キャプテンが最終回答を観察する)、話しチーム(キャプテンが回答と合理性の両方を観察する)の3つのチーム戦略を紹介します。
データ漏洩を最小限に抑えるため、2025年に発表された572個のChGK質問からなるデータセット上でこれらの戦略を評価する。
最近の6つの大規模オープンモデルを用いて、チームベースの戦略が単一モデルベースラインを上回り、最大20ポイントの精度でゲインが得られることを示す。
最高のチームは44.23%の精度を達成し、人間の統計に関する質問に対して人間チームのパフォーマンスにアプローチする。
モデル間多様性の分析では、不一致はより低い精度を強く予測するが、説明的コミュニケーションは性能低下を著しく軽減する。
我々はさらに船長の行動を調べ、自己選好バイアスの証拠は見つからない。
全体として、LLMチームは、新しいソリューションのジェネレータではなく、主に回答の選択とエラーフィルタリングメカニズムとして機能する。
本研究は,対話の重要性を強調し,多エージェントシステムにとって有望な方向性として適応戦略を提案する。
関連論文リスト
- Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:33:30Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - My Team Will Go On: Differentiating High and Low Viability Teams through
Team Interaction [17.729317295204368]
オンラインチームの669の10分間のテキスト会話のデータセット上で、生存可能性分類モデルをトレーニングする。
その結果,ラッソ回帰モデルにより,可視性スコアの分類のしきい値が異なる.74--.92 AUC ROCの精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-10-14T21:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。