論文の概要: MoK-RAG: Mixture of Knowledge Paths Enhanced Retrieval-Augmented Generation for Embodied AI Environments
- arxiv url: http://arxiv.org/abs/2503.13882v1
- Date: Tue, 18 Mar 2025 04:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:22.334594
- Title: MoK-RAG: Mixture of Knowledge Paths Enhanced Retrieval-Augmented Generation for Embodied AI Environments
- Title(参考訳): MoK-RAG: 身体的AI環境のための検索強化生成のための知識パスの混合
- Authors: Zhengsheng Guo, Linwei Zheng, Xinyang Chen, Xuefeng Bai, Kehai Chen, Min Zhang,
- Abstract要約: MoK-RAGは、知識パス強化検索機構の混合を実装した、新しいマルチソースRAGフレームワークである。
提案するMoK-RAG3Dは,3Dアセットを異なる部分に分割し,階層的な知識ツリー構造に基づいてそれらを整理することにより,このパラダイムを強化する。
我々の実験における自動評価と人的評価は、MoK-RAG3DがエンボディードAIエージェントの多様なシーン生成を支援することを実証している。
- 参考スコア(独自算出の注目度): 23.1470964521329
- License:
- Abstract: While human cognition inherently retrieves information from diverse and specialized knowledge sources during decision-making processes, current Retrieval-Augmented Generation (RAG) systems typically operate through single-source knowledge retrieval, leading to a cognitive-algorithmic discrepancy. To bridge this gap, we introduce MoK-RAG, a novel multi-source RAG framework that implements a mixture of knowledge paths enhanced retrieval mechanism through functional partitioning of a large language model (LLM) corpus into distinct sections, enabling retrieval from multiple specialized knowledge paths. Applied to the generation of 3D simulated environments, our proposed MoK-RAG3D enhances this paradigm by partitioning 3D assets into distinct sections and organizing them based on a hierarchical knowledge tree structure. Different from previous methods that only use manual evaluation, we pioneered the introduction of automated evaluation methods for 3D scenes. Both automatic and human evaluations in our experiments demonstrate that MoK-RAG3D can assist Embodied AI agents in generating diverse scenes.
- Abstract(参考訳): 人間の認知は、意思決定の過程で様々な専門知識ソースから情報を取り出すが、現在の検索・拡張生成(RAG)システムは典型的には単一ソースの知識検索によって機能し、認知とアルゴリズムの相違をもたらす。
このギャップを埋めるために,大規模言語モデル(LLM)コーパスを機能的に分割することで,複数の専門知識パスからの検索を可能にする,知識パスの混合を実現する新しいマルチソースRAGフレームワークであるMoK-RAGを導入する。
提案したMoK-RAG3Dは,3次元資産を異なる部分に分割し,階層的な知識ツリー構造に基づいてそれらを整理することにより,このパラダイムを強化する。
手動による評価のみを用いる従来の手法と異なり、我々は3次元シーンの自動評価手法の導入を開拓した。
我々の実験における自動評価と人的評価は、MoK-RAG3DがエンボディードAIエージェントの多様なシーン生成を支援することを実証している。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Object-Oriented Material Classification and 3D Clustering for Improved Semantic Perception and Mapping in Mobile Robots [6.395242048226456]
本稿では,オブジェクト指向パイプライン上に構築されたRGB-D教材分類のための補足型ディープラーニング手法を提案する。
本研究では,3次元セマンティックシーンマッピングの最先端手法と比較して,材料分類と3次元クラスタリングの精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-08T16:25:01Z) - Retrieval-Generation Alignment for End-to-End Task-Oriented Dialogue
System [40.33178881317882]
本稿では、応答生成からの信号を利用して、知覚的レトリバーの学習に最大限の限界確率を適用することを提案する。
本稿では,T5とChatGPTをバックボーンモデルとして用いた3つのタスク指向対話データセットについて検討する。
論文 参考訳(メタデータ) (2023-10-13T06:03:47Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Towards the One Learning Algorithm Hypothesis: A System-theoretic
Approach [0.0]
人間の認知における普遍的な学習アーキテクチャの存在は、神経科学の実験的な発見によって支持される広範囲にわたる推測である。
i) マルチレゾリューション分析プリプロセッサ, (ii) グループ不変の特徴抽出器, (iii) プログレッシブ知識に基づく学習モジュールの3つの主成分からなる閉ループシステムを開発した。
複数の解像度で徐々に成長する知識表現を構成する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-04T05:54:33Z) - All About Knowledge Graphs for Actions [82.39684757372075]
ゼロショットと少数ショットのアクション認識に使用できる知識グラフ(KG)の理解を深める。
KGsの3つの異なる構成機構について検討した。
異なる実験装置に対する異なるKGの影響を広範囲に解析する。
論文 参考訳(メタデータ) (2020-08-28T01:44:01Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning [24.13425816781179]
局所的特徴抽出は、SLAMや3D再構成、ARアプリケーションといった分野の進歩により、現在も活発な研究領域である。
両抽出を個別に処理し,学習過程における相互作用に焦点を当てる手法を提案する。
我々は,カメラのローカライゼーション作業に匹敵せず,HPatchの画像マッチングと3次元再構成品質の観点から,技術状況の改善を示す。
論文 参考訳(メタデータ) (2020-05-12T13:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。