Fugu-MT 論文翻訳(概要): P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task

論文の概要: P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task

arxiv url: http://arxiv.org/abs/2409.11279v1
Date: Tue, 17 Sep 2024 15:29:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 15:57:32.594188
Title: P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task
Title（参考訳）: P-RAG: 毎日の身体的タスクを計画するためのプログレッシブな検索生成
Authors: Weiye Xu, Min Wang, Wengang Zhou, Houqiang Li,
Abstract要約: Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。自然言語命令は明示的なタスクプランニングを欠くことが多い。タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
参考スコア（独自算出の注目度）: 94.08478298711789
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Embodied Everyday Task is a popular task in the embodied AI community, requiring agents to make a sequence of actions based on natural language instructions and visual observations. Traditional learning-based approaches face two challenges. Firstly, natural language instructions often lack explicit task planning. Secondly, extensive training is required to equip models with knowledge of the task environment. Previous works based on Large Language Model (LLM) either suffer from poor performance due to the lack of task-specific knowledge or rely on ground truth as few-shot samples. To address the above limitations, we propose a novel approach called Progressive Retrieval Augmented Generation (P-RAG), which not only effectively leverages the powerful language processing capabilities of LLMs but also progressively accumulates task-specific knowledge without ground-truth. Compared to the conventional RAG methods, which retrieve relevant information from the database in a one-shot manner to assist generation, P-RAG introduces an iterative approach to progressively update the database. In each iteration, P-RAG retrieves the latest database and obtains historical information from the previous interaction as experiential references for the current interaction. Moreover, we also introduce a more granular retrieval scheme that not only retrieves similar tasks but also incorporates retrieval of similar situations to provide more valuable reference experiences. Extensive experiments reveal that P-RAG achieves competitive results without utilizing ground truth and can even further improve performance through self-iterations.
Abstract（参考訳）: Embodied Everyday Taskは、インボディードAIコミュニティで一般的なタスクであり、自然言語の指示と視覚的な観察に基づいてアクションのシーケンスをエージェントに要求する。従来の学習ベースのアプローチは2つの課題に直面します。第一に、自然言語命令は明示的なタスクプランニングを欠いていることが多い。第二に、タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。 LLM(Large Language Model)に基づく以前の研究は、タスク固有の知識の欠如によるパフォーマンスの低下や、いくつかのサンプルとして真実に依存していた。上記の制約に対処するために,LLMの強力な言語処理能力を効果的に活用するだけでなく,基本構造を使わずにタスク固有の知識を徐々に蓄積する,プログレッシブ・レトリーバル拡張生成(P-RAG)という新しい手法を提案する。データベースから関連情報をワンショットで取得して生成を支援する従来のRAG手法と比較して,P-RAGはデータベースを段階的に更新する反復的アプローチを導入する。各イテレーションにおいて、P-RAGは最新のデータベースを取得し、現在のインタラクションの実験参照として、前のインタラクションから履歴情報を取得する。さらに、類似したタスクを検索するだけでなく、類似した状況の検索を取り入れて、より価値のある参照体験を提供する、よりきめ細かい検索手法も導入する。大規模な実験により、P-RAGは真理を生かさずに競争結果を達成し、自己評価によってさらに性能を向上させることができることが明らかになった。

関連論文リスト

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning [6.75641900721385]
大規模言語モデル(LLM)は、複雑なタスクを計画するためのエージェントとしての使用を可能にした。 Retrieval-augmented Generation (RAG) は、検索された情報において、外部データベースをグラウンドジェネレーションに活用することで、新たな機会を提供する。本稿では,これらの課題に対処するためのマルチエージェントメタ強化学習フレームワークであるInstructRAGを提案する。
論文参考訳（メタデータ） (2025-04-17T15:41:39Z)
Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models [51.608246558235166]
SCARLetは、RALMsでユーティリティベースのレトリバーをトレーニングするためのフレームワークである。マルチタスクの一般化とパッセージ間相互作用という2つの重要な要素が組み込まれている。ドメイン内とドメイン外の両方で、さまざまなタスクにまたがる10のデータセットに対するアプローチを評価します。
論文参考訳（メタデータ） (2025-04-01T09:28:28Z)
STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文参考訳（メタデータ） (2024-12-19T18:54:06Z)
AssistRAG: Boosting the Potential of Large Language Models with an Intelligent Information Assistant [23.366991558162695]
大規模言語モデルは「幻覚」として知られる事実的に誤った情報を生成するこれらの課題に対処するため、我々はAssistRAG(AssistRAG)を用いた検索生成支援システムを提案する。このアシスタントは、ツールの使用、アクションの実行、メモリ構築、プラン仕様を通じて、メモリと知識を管理する。
論文参考訳（メタデータ） (2024-11-11T09:03:52Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery [24.38640001674072]
Retrieval-Augmented Generation (RAG)は、検索ツールを利用して外部データベースにアクセスする。既存のRAGシステムは主に簡単な質問応答タスクに有効である。本稿では,MemoRAGを提案する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文参考訳（メタデータ） (2024-08-22T08:16:07Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Zero-shot Item-based Recommendation via Multi-task Product Knowledge Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文参考訳（メタデータ） (2023-05-12T17:38:24Z)
Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。 TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文参考訳（メタデータ） (2022-11-18T15:09:03Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)
Continual Learning for Natural Language Generation in Task-oriented Dialog Systems [72.92029584113676]
自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素である。我々は,NLGの知識を新たなドメインや機能に段階的に拡張する"継続的学習"環境で研究する。この目標に対する大きな課題は、破滅的な忘れことであり、継続的に訓練されたモデルは、以前に学んだ知識を忘れがちである。
論文参考訳（メタデータ） (2020-10-02T10:32:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。