論文の概要: General Modular Harness for LLM Agents in Multi-Turn Gaming Environments
- arxiv url: http://arxiv.org/abs/2507.11633v1
- Date: Tue, 15 Jul 2025 18:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.101043
- Title: General Modular Harness for LLM Agents in Multi-Turn Gaming Environments
- Title(参考訳): マルチスレッドゲーミング環境におけるLCMエージェントの一般モジュラーハーネス
- Authors: Yuxuan Zhang, Haoyang Yu, Lanxiang Hu, Haojian Jin, Hao Zhang,
- Abstract要約: 本稿では,LLMエージェントの知覚・記憶・推論コンポーネントを構成するモジュール型ハーネス設計を提案する。
従来のゲームスイートを低バリア,高多様性のテストベッドとして使用することにより,各モジュールがパフォーマンスにどのように影響するかを解析するための統合ワークフローを提供する。
- 参考スコア(独自算出の注目度): 12.953219183660881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a modular harness design for LLM agents that composes of perception, memory, and reasoning components, enabling a single LLM or VLM backbone to tackle a wide spectrum of multi turn gaming environments without domain-specific engineering. Using classic and modern game suites as low-barrier, high-diversity testbeds, our framework provides a unified workflow for analyzing how each module affects performance across dynamic interactive settings. Extensive experiments demonstrate that the harness lifts gameplay performance consistently over un-harnessed baselines and reveals distinct contribution patterns, for example, memory dominates in long-horizon puzzles while perception is critical in vision noisy arcades. These findings highlight the effectiveness of our modular harness design in advancing general-purpose agent, given the familiarity and ubiquity of games in everyday human experience.
- Abstract(参考訳): 我々は,LLMエージェントのモジュール型ハーネス設計を導入し,知覚,記憶,推論の要素で構成され,単一のLLMあるいはVLMバックボーンが,ドメイン固有の工学的手法を使わずに,幅広いマルチターンゲーム環境に対処できるようにする。
従来のゲームスイートを低バリア,高多様性のテストベッドとして使用することにより,動的インタラクティブな設定を通じて各モジュールがパフォーマンスにどのように影響するかを解析するための統合ワークフローを提供する。
広汎な実験により、ハーネスは無害なベースライン上でのゲームプレイのパフォーマンスを一貫して引き上げ、例えば、長い水平パズルにおいて記憶が支配的であり、視覚ノイズのあるアーケードでは知覚が不可欠であることを示す。
これらの知見は,日常の体験におけるゲームに親しみやすく,多様であることを考えると,汎用エージェントの進歩におけるモジュールハーネス設計の有効性を浮き彫りにしている。
関連論文リスト
- Play to Generalize: Learning to Reason Through Game Play [11.778612579151067]
そこで我々は,MLLMがアーケード的なゲームによってマルチモーダル推論のドメイン外一般化を開発する,新たな学習パラダイムであるVisual Game Learningを提案する。
ルールベースのゲームは、制御可能でスケーラブルなプレテキストタスクとして機能する。
論文 参考訳(メタデータ) (2025-06-09T17:59:57Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games [16.187737674778234]
textbfbenchnameは,多種多様な現実世界のビデオゲームを対象とした大規模言語モデル(LLM)エージェントの訓練と評価を目的としたベンチマークである。
LLMの一貫した評価を支援するために,モデルコンテキストプロトコル(MCP)に基づくプラグアンドプレイインタフェースを導入する。
Orakは総合的な評価フレームワークを提供しており、一般的なゲームスコアのリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、微調整効果の詳細な分析を含んでいる。
論文 参考訳(メタデータ) (2025-06-04T06:40:33Z) - Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文 参考訳(メタデータ) (2025-05-22T17:59:39Z) - Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (2024-09-04T17:01:02Z) - Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games [2.2648566044372416]
本稿では,アタリゲームにおける低レベルポリシーとして,マルチモーダル LLM の創発的能力をテストするための新しいベンチマークを提案する。
本研究では,従来のRLエージェント,ヒトプレイヤー,ランダムエージェントに対するマルチモーダルLLMの性能評価を行った。
以上の結果から,これらのマルチモーダル LLM はゼロショットの低レベルポリシーをまだ実現できていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-28T17:08:56Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - LLMR: Real-time Prompting of Interactive Worlds using Large Language Models [45.87888748442536]
Large Language Model for Mixed Reality (LLMR)は、インタラクティブなMixed Reality体験のリアルタイム作成と修正のためのフレームワークである。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
LLMRは標準のGPT-4を平均誤差率で4倍に上回る。
論文 参考訳(メタデータ) (2023-09-21T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。