論文の概要: MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents
- arxiv url: http://arxiv.org/abs/2601.05215v1
- Date: Thu, 08 Jan 2026 18:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.339656
- Title: MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents
- Title(参考訳): MineNPC-Task: メモリ対応Minecraftエージェントのためのタスクスイート
- Authors: Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel,
- Abstract要約: 我々は,オープンワールドのemphMinecraftにおいて,メモリを意識した混合開始型LLMエージェントをテストするためのユーザ認証ベンチマークと評価ハーネスであるtextscMineNPC-Task を提示する。
タスクは、合成プロンプトに頼るのではなく、専門家と形式的で要約的なコプレイから引き出され、明示的な前提条件と依存性構造を持つパラメトリックテンプレートに正規化される。
コード実行、インベントリ/ツールハンドリング、参照、ナビゲーションにおいて繰り返し発生するブレークダウンパターンを観察し、混合初期化と軽量メモリによるリカバリをサポートします。
- 参考スコア(独自算出の注目度): 7.941984883391391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \textsc{MineNPC-Task}, a user-authored benchmark and evaluation harness for testing memory-aware, mixed-initiative LLM agents in open-world \emph{Minecraft}. Rather than relying on synthetic prompts, tasks are elicited from formative and summative co-play with expert players, normalized into parametric templates with explicit preconditions and dependency structure, and paired with machine-checkable validators under a bounded-knowledge policy that forbids out-of-world shortcuts. The harness captures plan/act/memory events-including plan previews, targeted clarifications, memory reads and writes, precondition checks, and repair attempts and reports outcomes relative to the total number of attempted subtasks, derived from in-world evidence. As an initial snapshot, we instantiate the framework with GPT-4o and evaluate \textbf{216} subtasks across \textbf{8} experienced players. We observe recurring breakdown patterns in code execution, inventory/tool handling, referencing, and navigation, alongside recoveries supported by mixed-initiative clarifications and lightweight memory. Participants rated interaction quality and interface usability positively, while highlighting the need for stronger memory persistence across tasks. We release the complete task suite, validators, logs, and harness to support transparent, reproducible evaluation of future memory-aware embodied agents.
- Abstract(参考訳): 本稿では,オープンワールドにおけるメモリ認識,混合開始型LDMエージェントのテストのための,ユーザ認証ベンチマークと評価ハーネスである‘textsc{MineNPC-Task}を提示する。
タスクは、合成プロンプトに頼るのではなく、専門家プレーヤーとの形式的で要約的なコプレイから引き出され、明示的な前提条件と依存性構造を持つパラメトリックテンプレートに正規化され、世界外のショートカットを禁止した境界付き知識ポリシーの下で、マシンチェック可能なバリデータとペアリングされる。
ハーネスは、計画/実行/メモリイベントを含む、計画プレビュー、対象の明確化、メモリ読み取りと書き込み、条件チェック、修復の試みをキャプチャし、現実世界の証拠から得られた、試みられたサブタスクの総数に関する結果を報告する。
初期スナップショットとして、GPT-4oでフレームワークをインスタンス化し、経験豊富なプレイヤーを対象に、 \textbf{216}サブタスクを評価する。
コード実行、インベントリ/ツールハンドリング、参照、ナビゲーションにおいて繰り返し発生するブレークダウンパターンを観察し、混合初期化と軽量メモリによるリカバリをサポートします。
参加者はインタラクションの品質とインターフェースのユーザビリティを肯定的に評価し、タスク間のメモリ永続化を強化する必要性を強調した。
我々は、将来のメモリ対応エンボディエージェントの透過的で再現可能な評価をサポートするために、完全なタスクスイート、バリデータ、ログ、ハーネスをリリースする。
関連論文リスト
- Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - MINT: Memory-Infused Prompt Tuning at Test-time for CLIP [2.117421588033177]
既存のテスト時間適応メソッドは、モデルの内部知識を完全に活用するには不十分です。
人間の連想記憶理論に触発され、MINTはメモリ・プロンプト・バンクを導入した。
MINTは、MPBが取得したメモリを利用することで、テスト時に迅速かつ正確なVLM適応を可能にする。
論文 参考訳(メタデータ) (2025-05-31T07:31:20Z) - Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z) - Minerva: A Programmable Memory Test Benchmark for Language Models [18.474144165594225]
本稿では、モデルがメモリを効果的に活用できる能力を評価するために、包括的なテストを自動的に生成するフレームワークを提案する。
我々は、検索、リコール、編集、マッチング、文脈記憶における情報の比較といったアトミックなタスクのモデルを評価する。
また、より複雑で統合されたタスクを実行するモデルの能力を調べるために、複合テストも設計する。
論文 参考訳(メタデータ) (2025-02-05T16:53:45Z) - Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks [42.22616978679253]
本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。
SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。
155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
論文 参考訳(メタデータ) (2024-10-10T17:17:38Z) - PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。