論文の概要: Rule Synergy Analysis using LLMs: State of the Art and Implications
- arxiv url: http://arxiv.org/abs/2508.19484v1
- Date: Wed, 27 Aug 2025 00:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.450836
- Title: Rule Synergy Analysis using LLMs: State of the Art and Implications
- Title(参考訳): LLMを用いたルールシナジー解析:現状と意義
- Authors: Bahar Bateni, Benjamin Pratt, Jim Whitehead,
- Abstract要約: ゲーム『スレイ・ザ・スパイア』のカードシナジーのデータセットを導入し、カードのペアは正、負、中立の相互作用に基づいて分類される。
LLMは非シネルジスティックなペアの同定に優れるが、正のシナジー、特に負のシナジーの検出に苦慮している。
本研究は,ルールの効果と相互作用を予測する上で,モデル性能の向上に向けた今後の研究の方向性を示唆するものである。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance across a variety of domains, including logical reasoning, mathematics, and more. In this paper, we investigate how well LLMs understand and reason about complex rule interactions in dynamic environments, such as card games. We introduce a dataset of card synergies from the game Slay the Spire, where pairs of cards are classified based on their positive, negative, or neutral interactions. Our evaluation shows that while LLMs excel at identifying non-synergistic pairs, they struggle with detecting positive and, particularly, negative synergies. We categorize common error types, including issues with timing, defining game states, and following game rules. Our findings suggest directions for future research to improve model performance in predicting the effect of rules and their interactions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、論理的推論、数学など、様々な領域で強い性能を示している。
本稿では,カードゲームなどの動的環境における複雑なルール相互作用について,LLMがいかに理解し,理解しやすくするかを検討する。
ゲーム『スレイ・ザ・スパイア』のカードシナジーのデータセットを導入し、カードのペアは正、負、中立の相互作用に基づいて分類される。
LLMは非シネルジスティックなペアの同定に優れるが、正のシナジー、特に負のシナジーの検出に苦慮している。
タイミング、ゲーム状態の定義、ゲームルールの追従など、一般的なエラータイプを分類する。
本研究は,ルールの効果と相互作用を予測する上で,モデル性能の向上に向けた今後の研究の方向性を示唆するものである。
関連論文リスト
- Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing [0.0]
前方シミュレーションタスクのスイート上で,4つの大規模言語モデル (LLM) を評価する。
我々は,40個の構造的特徴に基づくゲームの特徴付けを行い,それらの特徴とLLM性能の相関関係を解析した。
全体として、同時代のモデルの形式的推論能力の進歩が報告されている。
論文 参考訳(メタデータ) (2026-02-22T12:43:00Z) - LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。
我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。
トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文 参考訳(メタデータ) (2025-12-01T18:51:08Z) - Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文 参考訳(メタデータ) (2025-11-12T06:06:29Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Baba is LLM: Reasoning in a Game with Dynamic Rules [0.0]
大規模言語モデル(LLM)は、言語タスクではうまく機能することが知られているが、推論タスクでは苦労している。
本稿では,LLMが2DパズルゲームBaba Is Youをプレイする能力について考察する。
論文 参考訳(メタデータ) (2025-06-23T20:16:28Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。