Fugu-MT 論文翻訳(概要): MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents

論文の概要: MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents

arxiv url: http://arxiv.org/abs/2601.05215v1
Date: Thu, 08 Jan 2026 18:39:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 17:01:53.339656
Title: MineNPC-Task: Task Suite for Memory-Aware Minecraft Agents
Title（参考訳）: MineNPC-Task: メモリ対応Minecraftエージェントのためのタスクスイート
Authors: Tamil Sudaravan Mohan Doss, Michael Xu, Sudha Rao, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel,
Abstract要約: 我々は,オープンワールドのemphMinecraftにおいて,メモリを意識した混合開始型LLMエージェントをテストするためのユーザ認証ベンチマークと評価ハーネスであるtextscMineNPC-Task を提示する。タスクは、合成プロンプトに頼るのではなく、専門家と形式的で要約的なコプレイから引き出され、明示的な前提条件と依存性構造を持つパラメトリックテンプレートに正規化される。コード実行、インベントリ/ツールハンドリング、参照、ナビゲーションにおいて繰り返し発生するブレークダウンパターンを観察し、混合初期化と軽量メモリによるリカバリをサポートします。
参考スコア（独自算出の注目度）: 7.941984883391391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present \textsc{MineNPC-Task}, a user-authored benchmark and evaluation harness for testing memory-aware, mixed-initiative LLM agents in open-world \emph{Minecraft}. Rather than relying on synthetic prompts, tasks are elicited from formative and summative co-play with expert players, normalized into parametric templates with explicit preconditions and dependency structure, and paired with machine-checkable validators under a bounded-knowledge policy that forbids out-of-world shortcuts. The harness captures plan/act/memory events-including plan previews, targeted clarifications, memory reads and writes, precondition checks, and repair attempts and reports outcomes relative to the total number of attempted subtasks, derived from in-world evidence. As an initial snapshot, we instantiate the framework with GPT-4o and evaluate \textbf{216} subtasks across \textbf{8} experienced players. We observe recurring breakdown patterns in code execution, inventory/tool handling, referencing, and navigation, alongside recoveries supported by mixed-initiative clarifications and lightweight memory. Participants rated interaction quality and interface usability positively, while highlighting the need for stronger memory persistence across tasks. We release the complete task suite, validators, logs, and harness to support transparent, reproducible evaluation of future memory-aware embodied agents.
Abstract（参考訳）: 本稿では,オープンワールドにおけるメモリ認識,混合開始型LDMエージェントのテストのための,ユーザ認証ベンチマークと評価ハーネスである‘textsc{MineNPC-Task}を提示する。タスクは、合成プロンプトに頼るのではなく、専門家プレーヤーとの形式的で要約的なコプレイから引き出され、明示的な前提条件と依存性構造を持つパラメトリックテンプレートに正規化され、世界外のショートカットを禁止した境界付き知識ポリシーの下で、マシンチェック可能なバリデータとペアリングされる。ハーネスは、計画/実行/メモリイベントを含む、計画プレビュー、対象の明確化、メモリ読み取りと書き込み、条件チェック、修復の試みをキャプチャし、現実世界の証拠から得られた、試みられたサブタスクの総数に関する結果を報告する。初期スナップショットとして、GPT-4oでフレームワークをインスタンス化し、経験豊富なプレイヤーを対象に、 \textbf{216}サブタスクを評価する。コード実行、インベントリ/ツールハンドリング、参照、ナビゲーションにおいて繰り返し発生するブレークダウンパターンを観察し、混合初期化と軽量メモリによるリカバリをサポートします。参加者はインタラクションの品質とインターフェースのユーザビリティを肯定的に評価し、タスク間のメモリ永続化を強化する必要性を強調した。我々は、将来のメモリ対応エンボディエージェントの透過的で再現可能な評価をサポートするために、完全なタスクスイート、バリデータ、ログ、ハーネスをリリースする。

関連論文リスト

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文参考訳（メタデータ） (2026-03-04T21:59:32Z)
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。 MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文参考訳（メタデータ） (2026-02-18T09:49:14Z)
Enhancing Conversational Agents via Task-Oriented Adversarial Memory Adaptation [64.69535903624033]
本稿では,タスク実行をシミュレートすることで,メモリ構築と更新をタスク目標と整合させるアダクティブメモリ適応機構を提案する。 AMAは、様々な既存のメモリシステムに統合することができ、LongダイアログベンチマークであるLoCoMoの広範な実験により、その効果が示されている。
論文参考訳（メタデータ） (2026-01-29T14:42:34Z)
EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents [52.567469286881426]
本稿では,対話型ゲームによるエージェントの長期記憶評価のためのプログラムベンチマークEMemBenchを紹介する。固定された質問セットを使う代わりに、EMemBenchは各エージェント自身の軌道から質問を生成する。各テンプレートは、下層のゲーム信号から検証済みの真理を計算する。
論文参考訳（メタデータ） (2026-01-23T12:09:59Z)
Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents [20.357475946040054]
textscMem2ActBenchは、エージェントがツールベースのアクションを実行するために長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである。リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価は91.3%が強いメモリ依存であることを確認した。
論文参考訳（メタデータ） (2026-01-13T06:22:32Z)
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文参考訳（メタデータ） (2025-11-25T21:08:07Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:59:54Z)
MINT: Memory-Infused Prompt Tuning at Test-time for CLIP [2.117421588033177]
既存のテスト時間適応メソッドは、モデルの内部知識を完全に活用するには不十分です。人間の連想記憶理論に触発され、MINTはメモリ・プロンプト・バンクを導入した。 MINTは、MPBが取得したメモリを利用することで、テスト時に迅速かつ正確なVLM適応を可能にする。
論文参考訳（メタデータ） (2025-05-31T07:31:20Z)
Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization [26.34637576545121]
LLMを動力とするエンボディエージェントは、従来のオブジェクト配置タスクで成功している。しかし、過去のインタラクションからユーザ固有の知識を活用するパーソナライズされた支援を提供することで、新たな課題が浮かび上がっている。エージェントのメモリ利用のレンズを通してこれらの課題を考察する。
論文参考訳（メタデータ） (2025-05-22T08:00:10Z)
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文参考訳（メタデータ） (2025-05-01T17:31:33Z)
Minerva: A Programmable Memory Test Benchmark for Language Models [18.474144165594225]
本稿では、モデルがメモリを効果的に活用できる能力を評価するために、包括的なテストを自動的に生成するフレームワークを提案する。我々は、検索、リコール、編集、マッチング、文脈記憶における情報の比較といったアトミックなタスクのモデルを評価する。また、より複雑で統合されたタスクを実行するモデルの能力を調べるために、複合テストも設計する。
論文参考訳（メタデータ） (2025-02-05T16:53:45Z)
Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks [42.22616978679253]
本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。 SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。 155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
論文参考訳（メタデータ） (2024-10-10T17:17:38Z)
PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文参考訳（メタデータ） (2024-07-04T10:37:58Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。