論文の概要: VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft
- arxiv url: http://arxiv.org/abs/2508.18722v2
- Date: Sat, 30 Aug 2025 11:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 12:29:36.791764
- Title: VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft
- Title(参考訳): VistaWise:Minecraft用のクロスモーダルな知識グラフによるコスト効果エージェントの構築
- Authors: Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao Wang,
- Abstract要約: VistaWiseは、クロスモーダルなドメイン知識を統合する費用効率のよいエージェントフレームワークである。
ドメイン固有のトレーニングデータの要求を数百万のサンプルから数百に削減する。
様々なオープンワールドタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 30.110035501991344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown significant promise in embodied decision-making tasks within virtual open-world environments. Nonetheless, their performance is hindered by the absence of domain-specific knowledge. Methods that finetune on large-scale domain-specific data entail prohibitive development costs. This paper introduces VistaWise, a cost-effective agent framework that integrates cross-modal domain knowledge and finetunes a dedicated object detection model for visual analysis. It reduces the requirement for domain-specific training data from millions of samples to a few hundred. VistaWise integrates visual information and textual dependencies into a cross-modal knowledge graph (KG), enabling a comprehensive and accurate understanding of multimodal environments. We also equip the agent with a retrieval-based pooling strategy to extract task-related information from the KG, and a desktop-level skill library to support direct operation of the Minecraft desktop client via mouse and keyboard inputs. Experimental results demonstrate that VistaWise achieves state-of-the-art performance across various open-world tasks, highlighting its effectiveness in reducing development costs while enhancing agent performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、仮想オープンワールド環境における意思決定タスクの具体化において大きな可能性を示してきた。
それでも、それらのパフォーマンスはドメイン固有の知識の欠如によって妨げられています。
大規模ドメイン固有のデータに精通する手法は、開発コストを禁止します。
本稿では、クロスモーダルなドメイン知識を統合し、ビジュアル分析専用のオブジェクト検出モデルを微調整するコスト効率の高いエージェントフレームワークVistaWiseを紹介する。
ドメイン固有のトレーニングデータの要求を数百万のサンプルから数百に削減する。
VistaWiseは、視覚情報とテキスト依存をクロスモーダルな知識グラフ(KG)に統合し、マルチモーダル環境の包括的で正確な理解を可能にする。
また、KGからタスク関連情報を抽出するための検索ベースのプール戦略と、マウスとキーボード入力によるMinecraftデスクトップクライアントの直接操作を支援するデスクトップレベルのスキルライブラリも備えている。
実験の結果,VistaWiseは様々なオープンワールドタスクにおいて最先端のパフォーマンスを実現し,エージェント性能を向上しながら開発コストを削減できることを示した。
関連論文リスト
- Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data [14.328402787379538]
本稿では,自然言語インタラクションによる知識管理プラットフォームである AgentiGraph (タスクベースインタラクションとグラフィカル表現のための適応生成ENgine) を紹介する。
AgentiGraphはマルチエージェントアーキテクチャを使用して、ユーザの意図を動的に解釈し、タスクを管理し、新しい知識を統合する。
3,500のテストケースのデータセットの実験結果から、AgentiGraphは最先端のゼロショットベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-15T12:05:58Z) - Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models [42.182009352159]
We present a new efficient LLVM, Mamba based traversal of rationales (Meteor)
豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。
その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。
論文 参考訳(メタデータ) (2024-05-24T14:04:03Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。