論文の概要: Can They Dixit? Yes they Can! Dixit as a Playground for Multimodal Language Model Capabilities
- arxiv url: http://arxiv.org/abs/2510.19892v1
- Date: Wed, 22 Oct 2025 17:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.527029
- Title: Can They Dixit? Yes they Can! Dixit as a Playground for Multimodal Language Model Capabilities
- Title(参考訳): ディクシットはできるのか? できる! マルチモーダル言語モデル機能のためのプレイグラウンドとしてのディクシット
- Authors: Nishant Balepur, Dang Nguyen, Dayeon Ki,
- Abstract要約: 本稿では,機能評価のためのゲームベース評価を提案する。
ゲームはプレイヤーが勝つために複数の能力を必要とし、本質的に競争力があり、固定された客観的ルールによって支配される。
我々はこの評価をファンタジーカードゲームであるDixitを通じて具体的に示す。
- 参考スコア(独自算出の注目度): 17.019600215402704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal large language models (MLMs) are often assessed on static, individual benchmarks -- which cannot jointly assess MLM capabilities in a single task -- or rely on human or model pairwise comparisons -- which is highly subjective, expensive, and allows models to exploit superficial shortcuts (e.g., verbosity) to inflate their win-rates. To overcome these issues, we propose game-based evaluations to holistically assess MLM capabilities. Games require multiple abilities for players to win, are inherently competitive, and are governed by fix, objective rules, and makes evaluation more engaging, providing a robust framework to address the aforementioned challenges. We manifest this evaluation specifically through Dixit, a fantasy card game where players must generate captions for a card that trick some, but not all players, into selecting the played card. Our quantitative experiments with five MLMs show Dixit win-rate rankings are perfectly correlated with those on popular MLM benchmarks, while games between human and MLM players in Dixit reveal several differences between agent strategies and areas of improvement for MLM reasoning.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLM)は、静的な個々のベンチマークで評価されることが多く、単一のタスクでMLM機能を共同評価できない、あるいは人またはモデルのペアワイズ比較に依存しない、非常に主観的で高価であり、モデルが勝利率を向上するために表面的なショートカット(例えば、冗長性)を利用することを可能にする。
これらの課題を克服するために,ゲームベースの評価手法を提案する。
ゲームはプレイヤーが勝つために複数の能力を必要とし、本質的に競争力があり、固定、客観的ルールによって支配され、評価をより活発にし、上記の課題に対処するための堅牢なフレームワークを提供する。
この評価は、プレイヤーがカードのキャプションを生成しなければならないファンタジーカードゲームであるDixitで、プレイヤーはプレイカードを選択するために、一部のプレイヤーを騙すのではなく、すべてのプレイヤーを騙す必要がある。
5つのMLMを用いた定量的実験により、Dxitの勝利率ランキングは人気のあるMLMベンチマークと完全に相関し、Dxitの人間とMLMプレーヤーのゲームはエージェント戦略とMLM推論の改善領域にいくつかの違いを呈している。
関連論文リスト
- Can Large Language Models Master Complex Card Games? [18.39826127562161]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示した。
高品質なデータを教師付き微調整することで,LLMが強力なゲームAIの性能にアプローチ可能であることを示す。
LLMは複雑なゲームをマスターする際の一般的な能力の低下を経験するが、この低下をある程度の一般的な命令データを統合することで軽減することができる。
論文 参考訳(メタデータ) (2025-09-01T10:11:56Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - SmartPlay: A Benchmark for LLMs as Intelligent Agents [45.76707302899935]
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。
各ゲームは知的LLMエージェントの9つの重要な能力のサブセットに挑戦する。
テストには、オブジェクト依存による推論、事前計画、空間的推論、履歴からの学習、ランダムさの理解が含まれる。
論文 参考訳(メタデータ) (2023-10-02T18:52:11Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。