Fugu-MT 論文翻訳(概要): How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment

論文の概要: How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment

arxiv url: http://arxiv.org/abs/2603.17169v1
Date: Tue, 17 Mar 2026 22:01:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.414975
Title: How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment
Title（参考訳）: LLMはどこまでクローズアップされているか? テキストベースのゲーム環境におけるマルチステップ推論の評価
Authors: Rebecca Ansell, Autumn Toney-Wails,
Abstract要約: ルールベースのテストベッドとして,テキストベースのマルチエージェント版Clueを実装した。構造化論理パズルの微調整がゲーム内推論やゲームプレイの改善に寄与するかどうかを検討する。
参考スコア（独自算出の注目度）: 0.44198435146063364
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Deducing whodunit proves challenging for LLM agents. In this paper, we implement a text-based multi-agent version of the classic board game Clue as a rule-based testbed for evaluating multi-step deductive reasoning, with six agents drawn from GPT-4o-mini and Gemini-2.5-Flash. We further investigate whether fine-tuning on structured logic puzzles transfers to improved in-game reasoning and gameplay. Across 18 simulated games, agents achieve only four correct wins, indicating difficulty in maintaining consistent deductive reasoning over the course of a full game. Additionally, we find that fine-tuning does not reliably improve performance and, in some cases, appears to increase reasoning volume without improving reasoning precision.
Abstract（参考訳）: ホップユニットのデジェクションはLLMエージェントにとって困難である。本稿では,GPT-4o-mini と Gemini-2.5-Flash から引き出された6つのエージェントを用いて,従来のボードゲーム Clue のテキストベースのマルチエージェントバージョンを,多段階推論評価のためのルールベースのテストベッドとして実装する。さらに,構造化論理パズルの微調整がゲーム内推論やゲームプレイの改善に寄与するかどうかについても検討する。シミュレーションゲーム18試合中、エージェントは4つの正しい勝利しか達成せず、完全なゲーム中において一貫した誘引的推論を維持するのが困難であることを示す。さらに、微調整は性能を確実に向上させるものではなく、場合によっては推論精度を向上することなく推論量を増加させるように見える。

関連論文リスト

How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use [52.394999779049606]
大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。 LLMは従来のアルゴリズムと競合しない。ツール統合推論フレームワークであるToolPokerを提案する。
論文参考訳（メタデータ） (2026-01-31T05:45:25Z)
From Gameplay Traces to Game Mechanics: Causal Induction with Large Language Models [64.43268969806098]
本稿では,観測データから法則を推定できる因果誘導について検討する。本稿では,VGDL生成に対する2つのアプローチを比較する。観測からの直接コード生成と,まず構造因果モデル(SCM)を推定し,次にVGDLに変換する2段階法である。その結果,SCMに基づくアプローチは,直接生成よりも基礎的真実に近いVGDL記述を多く生み出すことがわかった。
論文参考訳（メタデータ） (2026-01-30T08:48:23Z)
LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文参考訳（メタデータ） (2025-12-01T18:51:08Z)
Baba is LLM: Reasoning in a Game with Dynamic Rules [0.0]
大規模言語モデル(LLM)は、言語タスクではうまく機能することが知られているが、推論タスクでは苦労している。本稿では,LLMが2DパズルゲームBaba Is Youをプレイする能力について考察する。
論文参考訳（メタデータ） (2025-06-23T20:16:28Z)
lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文参考訳（メタデータ） (2025-05-21T06:02:55Z)
GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。