Fugu-MT 論文翻訳(概要): 4Hammer: a board-game reinforcement learning environment for the hour long time frame

論文の概要: 4Hammer: a board-game reinforcement learning environment for the hour long time frame

arxiv url: http://arxiv.org/abs/2505.13638v1
Date: Mon, 19 May 2025 18:19:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.480555
Title: 4Hammer: a board-game reinforcement learning environment for the hour long time frame
Title（参考訳）: 4Hammer:時間長フレームのためのボードゲーム強化学習環境
Authors: Massimo Fioravanti, Giovanni Agosta,
Abstract要約: LLM(Large Language Models)は、短い時間枠を持つタスクでは高いパフォーマンスを示すが、長い時間を要するタスクでは苦労する。本稿では,Warhammer 40,000-a complex, zero-sum board game のデジタル双対シミュレーションである 4Hammer 強化学習環境を提案する。
参考スコア（独自算出の注目度）: 0.7734726150561088
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have demonstrated strong performance on tasks with short time frames, but struggle with tasks requiring longer durations. While datasets covering extended-duration tasks, such as software engineering tasks or video games, do exist, there are currently few implementations of complex board games specifically designed for reinforcement learning and LLM evaluation. To address this gap, we propose the 4Hammer reinforcement learning environment, a digital twin simulation of a subset of Warhammer 40,000-a complex, zero-sum board game. Warhammer 40,000 features intricate rules, requiring human players to thoroughly read and understand over 50 pages of detailed natural language rules, grasp the interactions between their game pieces and those of their opponents, and independently track and communicate the evolving game state.
Abstract（参考訳）: LLM(Large Language Models)は、短い時間枠を持つタスクでは高いパフォーマンスを示すが、長い時間を要するタスクでは苦労する。ソフトウェアエンジニアリングタスクやビデオゲームのような拡張デューレーションタスクをカバーするデータセットは存在するが、強化学習やLLM評価のために特別に設計された複雑なボードゲームの実装は、今のところほとんどない。そこで本研究では,Warhammer 40,000-a complex, zero-sum board game のディジタル双対シミュレーションである 4Hammer 強化学習環境を提案する。ウォーハンマー4万は複雑なルールを特徴とし、人間のプレイヤーは50ページ以上の詳細な自然言語規則を読み、理解し、ゲームピースと相手の相互作用を把握し、進化するゲームの状態を独立して追跡し、伝達することを要求している。

関連論文リスト

Playsemble: Learning Low-Level Programming Through Interactive Games [6.174988590679205]
Playsembleはゲーム化された学習システムで、アセンブリ命令をインタラクティブなゲームライクなタスクに変換する。この結果から,Playsembleは活発な実験,持続的エンゲージメント,深い概念的理解を促進することが示唆された。
論文参考訳（メタデータ） (2026-02-09T06:31:44Z)
TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents [5.173133826653683]
本稿では,RTSゲームにおけるタワー防衛サブジャンルを基盤とした,新しい環境であるタワーミンドを紹介する。我々は、広く使われている大規模言語モデルを評価するために、5つのベンチマークレベルを設計する。その結果、LLMと人間の専門家の能力と幻覚の両面において、明らかなパフォーマンスギャップが明らかとなった。
論文参考訳（メタデータ） (2026-01-09T16:18:08Z)
GIFT: Games as Informal Training for Generalizable LLMs [64.47890325824763]
大規模言語モデル(LLM)は「実践的な知恵」と一般化可能な知性に苦しむ。このギャップは、目標指向の指示よりもインタラクティブなフィードバックに長けている非公式な学習の欠如から生じる。 LLMの非公式学習におけるゲーム処理環境として,本質的な報酬信号と抽象化された複雑性を活用することを提案する。
論文参考訳（メタデータ） (2026-01-09T08:42:44Z)
LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文参考訳（メタデータ） (2025-12-01T18:51:08Z)
Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。 Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文参考訳（メタデータ） (2025-10-27T17:43:51Z)
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。 GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文参考訳（メタデータ） (2025-09-30T15:23:39Z)
GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。 General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文参考訳（メタデータ） (2025-08-11T22:17:07Z)
Play to Generalize: Learning to Reason Through Game Play [11.778612579151067]
そこで我々は,MLLMがアーケード的なゲームによってマルチモーダル推論のドメイン外一般化を開発する,新たな学習パラダイムであるVisual Game Learningを提案する。ルールベースのゲームは、制御可能でスケーラブルなプレテキストタスクとして機能する。
論文参考訳（メタデータ） (2025-06-09T17:59:57Z)
Unified Game Moderation: Soft-Prompting and LLM-Assisted Label Transfer for Resource-Efficient Toxicity Detection [4.779196219827507]
ゲームコミュニティにおける毒性の検出は、複数のゲームや言語にまたがる拡張において、大きなスケーリング上の課題に直面している。 BERTベースのリアルタイム毒性検出システムであるToxBusterに関するこれまでの研究に基づいて,これらの課題に対処するための2つの重要な知見を提示する。
論文参考訳（メタデータ） (2025-06-01T20:50:43Z)
Learning to Play Like Humans: A Framework for LLM Adaptation in Interactive Fiction Games [8.06073345741722]
インタラクティブ・フィクションゲーム(Interactive Fiction Game、IFゲーム)は、プレイヤーが自然言語で操作するゲームである。この研究は認知にインスパイアされたフレームワークを示し、Large Language Models (LLM) を体系的にIFゲームを学び、プレイする。
論文参考訳（メタデータ） (2025-05-18T14:21:56Z)
Model as a Game: On Numerical and Spatial Consistency for Generative Games [117.36098212829766]
本稿では,モデル・アズ・ア・ゲーム(MaaG)のメカニズムを十分に構築した上で,モデル・アズ・ア・ゲーム(MaaG)を真に構成するものを探るため,生成ゲームのパラダイムを再考する。 DiTアーキテクチャに基づいて,(1) LogicNetを統合してイベントトリガを決定する数値モジュール,(2) 探索領域のマップを維持する空間モジュール,(2) 生成中の位置情報を検索して連続性を確保する,という2つの特殊なモジュールを設計する。
論文参考訳（メタデータ） (2025-03-27T05:46:15Z)
Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文参考訳（メタデータ） (2024-08-05T15:36:46Z)
AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game [12.384945632524424]
本稿では,シミュレーション環境における人間行動のプロキシの作成に焦点をあてる。我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
論文参考訳（メタデータ） (2024-07-23T14:34:38Z)
3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection [9.813868112412868]
本稿では,多教師によるゲームイベント検出フレームワークを新たに導入し,総合的なフレームワークの構築を究極の目標とする。この実験により,提案フレームワークの有効性が明らかとなった。
論文参考訳（メタデータ） (2024-06-13T12:58:53Z)
Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文参考訳（メタデータ） (2024-03-30T08:02:16Z)
Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文参考訳（メタデータ） (2023-07-24T07:40:59Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文参考訳（メタデータ） (2020-01-24T03:03:51Z)
Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文参考訳（メタデータ） (2019-03-01T15:40:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。