論文の概要: Rule Synergy Analysis using LLMs: State of the Art and Implications
- arxiv url: http://arxiv.org/abs/2508.19484v1
- Date: Wed, 27 Aug 2025 00:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.450836
- Title: Rule Synergy Analysis using LLMs: State of the Art and Implications
- Title(参考訳): LLMを用いたルールシナジー解析:現状と意義
- Authors: Bahar Bateni, Benjamin Pratt, Jim Whitehead,
- Abstract要約: ゲーム『スレイ・ザ・スパイア』のカードシナジーのデータセットを導入し、カードのペアは正、負、中立の相互作用に基づいて分類される。
LLMは非シネルジスティックなペアの同定に優れるが、正のシナジー、特に負のシナジーの検出に苦慮している。
本研究は,ルールの効果と相互作用を予測する上で,モデル性能の向上に向けた今後の研究の方向性を示唆するものである。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance across a variety of domains, including logical reasoning, mathematics, and more. In this paper, we investigate how well LLMs understand and reason about complex rule interactions in dynamic environments, such as card games. We introduce a dataset of card synergies from the game Slay the Spire, where pairs of cards are classified based on their positive, negative, or neutral interactions. Our evaluation shows that while LLMs excel at identifying non-synergistic pairs, they struggle with detecting positive and, particularly, negative synergies. We categorize common error types, including issues with timing, defining game states, and following game rules. Our findings suggest directions for future research to improve model performance in predicting the effect of rules and their interactions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、論理的推論、数学など、様々な領域で強い性能を示している。
本稿では,カードゲームなどの動的環境における複雑なルール相互作用について,LLMがいかに理解し,理解しやすくするかを検討する。
ゲーム『スレイ・ザ・スパイア』のカードシナジーのデータセットを導入し、カードのペアは正、負、中立の相互作用に基づいて分類される。
LLMは非シネルジスティックなペアの同定に優れるが、正のシナジー、特に負のシナジーの検出に苦慮している。
タイミング、ゲーム状態の定義、ゲームルールの追従など、一般的なエラータイプを分類する。
本研究は,ルールの効果と相互作用を予測する上で,モデル性能の向上に向けた今後の研究の方向性を示唆するものである。
関連論文リスト
- Baba is LLM: Reasoning in a Game with Dynamic Rules [0.0]
大規模言語モデル(LLM)は、言語タスクではうまく機能することが知られているが、推論タスクでは苦労している。
本稿では,LLMが2DパズルゲームBaba Is Youをプレイする能力について考察する。
論文 参考訳(メタデータ) (2025-06-23T20:16:28Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。