Fugu-MT 論文翻訳(概要): Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation

論文の概要: Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation

arxiv url: http://arxiv.org/abs/2409.18313v5
Date: Tue, 21 Jan 2025 02:38:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:18.944593
Title: Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation
Title（参考訳）: Embodied-RAG: 検索・生成のための一般的な非パラメトリック・エボダイドメモリ
Authors: Quanting Xie, So Yeon Min, Pengliang Ji, Yue Yang, Tianyi Zhang, Kedi Xu, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk,
Abstract要約: Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
参考スコア（独自算出の注目度）: 69.01029651113386
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhorse of large-scale non-parametric knowledge; however, existing techniques do not directly transfer to the embodied domain, which is multimodal, where data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG's memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 250 explanation and navigation queries across kilometer-level environments, highlighting its promise as a general-purpose non-parametric system for embodied agents.
Abstract（参考訳）: ロボットの探索と学習には限界はありませんが、その知識はすべて検索可能で実行可能でなければなりません。言語研究の中では、検索拡張生成(RAG)が大規模な非パラメトリック知識のワークホースとなっているが、既存の技術は、データが高い相関関係を持ち、知覚が抽象化を必要とするマルチモーダルなエンボディドドメインに直接転送するわけではない。これらの課題に対処するために、Embodied-RAGは、ナビゲーションと言語生成の両方の階層的知識を自律的に構築できる非パラメトリックメモリシステムを備えた、エンボディエージェントの基礎モデルを強化するフレームワークである。 Embodied-RAGは、特定のオブジェクトや周囲の全体的記述にかかわらず、さまざまな環境やクエリタイプにわたる、空間的および意味的な解決を幅広く扱う。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。この階層的な組織は、さまざまなロボットプラットフォームにまたがる状況に敏感なアウトプットを効率的に生成することを可能にする。 Embodied-RAGがRAGをロボティクス領域に効果的にブリッジし、250以上の説明・ナビゲーションクエリをキロレベルの環境にわたって処理し、エンボディエージェントの汎用的ノンパラメトリックシステムとしての可能性を強調した。

関連論文リスト

Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。 LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文参考訳（メタデータ） (2025-06-05T13:27:41Z)
ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文参考訳（メタデータ） (2025-06-02T21:38:21Z)
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文参考訳（メタデータ） (2025-04-29T13:18:58Z)
FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment [16.987872206495897]
FindAnythingは、視覚言語情報を高密度のボリュームサブマップに組み込むオープンワールドマッピングフレームワークである。当社のシステムは,MAVなどのリソース制約されたデバイスにデプロイされる最初のシステムである。
論文参考訳（メタデータ） (2025-04-11T15:12:05Z)
Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions [5.053463027769152]
空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
論文参考訳（メタデータ） (2025-02-04T01:30:06Z)
GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation [3.2027710059627545]
検索拡張生成のためのグラフィカル固有メモリ(GEM-RAG)について紹介する。 GEM-RAG は LLM が生成したユーティリティの質問を与えられたテキストコーパスにタグ付けすることで機能する。我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT を用いた GEM-RAG と OpenAI のテキストエンコーダを2つの標準QA タスクで評価した。
論文参考訳（メタデータ） (2024-09-23T21:42:47Z)
Towards Global Localization using Multi-Modal Object-Instance Re-Identification [23.764646800085977]
マルチモーダルRGBと深度情報を統合した新しい再同定トランスフォーマアーキテクチャを提案する。照明条件が異なったり散らかったりしたシーンにおけるReIDの改善を実演する。また、正確なカメラのローカライゼーションを可能にするReIDベースのローカライゼーションフレームワークを開発し、異なる視点で識別を行う。
論文参考訳（メタデータ） (2024-09-18T14:15:10Z)
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery [24.38640001674072]
Retrieval-Augmented Generation (RAG)は、検索ツールを利用して外部データベースにアクセスする。既存のRAGシステムは主に簡単な質問応答タスクに有効である。本稿では,MemoRAGを提案する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-03-30T10:54:59Z)
RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation [21.387160107315797]
本稿では,ロボットが自律的に環境を探索し,行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。 ACSGは、シーン内の低レベル情報(幾何学と意味論)と高レベル情報(異なるエンティティ間のアクション条件付き関係)の両方を記述している。本稿では,LMM(Large Multimodal Model)と明示的なメモリ設計を取り入れたロボット探索システム(RoboEXP)を提案する。
論文参考訳（メタデータ） (2024-02-23T18:27:17Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
GenURL: A General Framework for Unsupervised Representation Learning [58.59752389815001]
教師なし表現学習(URL)は、教師なしの高次元データのコンパクトな埋め込みを学習する。本稿では,様々なURLタスクにスムーズに適応可能な類似性ベースの統合URLフレームワークGenURLを提案する。実験により、GenURLは、自己教師付き視覚学習、無教師付き知識蒸留(KD)、グラフ埋め込み(GE)、次元縮小において、一貫した最先端性能を達成することが示された。
論文参考訳（メタデータ） (2021-10-27T16:24:39Z)
Speech Command Recognition in Computationally Constrained Environments with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文参考訳（メタデータ） (2020-11-23T14:40:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。