論文の概要: Thought-Retriever: Don't Just Retrieve Raw Data, Retrieve Thoughts for Memory-Augmented Agentic Systems
- arxiv url: http://arxiv.org/abs/2604.12231v1
- Date: Tue, 14 Apr 2026 03:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.212324
- Title: Thought-Retriever: Don't Just Retrieve Raw Data, Retrieve Thoughts for Memory-Augmented Agentic Systems
- Title(参考訳): Thought-Retriever: 生データを検索するだけでなく、メモリ拡張エージェントシステムの思考を検索する
- Authors: Tao Feng, Pengrui Han, Guanyu Lin, Ge Liu, Jiaxuan You,
- Abstract要約: 我々は,大言語モデル(LLM)が任意の長期外部データに基づいて出力条件を生成するのを支援するモデル非依存のアルゴリズムであるThought-Retrieverを提案する。
私たちのキーとなる洞察は、LLMが過去のユーザクエリ(考え)を解決する際に生成された中間応答を完全に活用できるようにすることです。
AcademicEvalと他の2つの公開データセットに関する大規模な実験は、Thought-Retrieverが最先端のベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 29.91699194953783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed AI research thanks to their powerful internal capabilities and knowledge. However, existing LLMs still fail to effectively incorporate the massive external knowledge when interacting with the world. Although retrieval-augmented LLMs are proposed to mitigate the issue, they are still fundamentally constrained by the context length of LLMs, as they can only retrieve top-K raw data chunks from the external knowledge base which often consists of millions of data chunks. Here we propose Thought-Retriever, a novel model-agnostic algorithm that helps LLMs generate output conditioned on arbitrarily long external data, without being constrained by the context length or number of retrieved data chunks. Our key insight is to let an LLM fully leverage its intermediate responses generated when solving past user queries (thoughts), filtering meaningless and redundant thoughts, organizing them in thought memory, and retrieving the relevant thoughts when addressing new queries. This effectively equips LLM-based agents with a self-evolving long-term memory that grows more capable through continuous interaction. Besides algorithmic innovation, we further meticulously prepare a novel benchmark, AcademicEval, which requires an LLM to faithfully leverage ultra-long context to answer queries based on real-world academic papers. Extensive experiments on AcademicEval and two other public datasets validate that Thought-Retriever remarkably outperforms state-of-the-art baselines, achieving an average increase of at least 7.6% in F1 score and 16% in win rate across various tasks. More importantly, we further demonstrate two exciting findings: (1) Thought-Retriever can indeed help LLM self-evolve after solving more user queries; (2) Thought-Retriever learns to leverage deeper thoughts to answer more abstract user queries.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その強力な内部能力と知識のおかげで、AI研究を変革した。
しかし、既存のLLMは、世界と対話する際の膨大な外部知識を効果的に組み込むことができない。
検索強化 LLM はこの問題を軽減するために提案されているが、LLM の文脈長による制約は基本的には制約されており、数百万のデータチャンクからなる外部知識ベースからのみトップKの生データチャンクを検索できる。
本稿では、LLMが文脈長や検索データチャンク数に制約されることなく、任意の長さの外部データに基づいて出力条件を生成するのに役立つ新しいモデル非依存アルゴリズムであるThought-Retrieverを提案する。
我々の重要な洞察は、LCMが過去のユーザクエリ(考え)の解決時に発生するその中間応答を完全に活用し、無意味で冗長な思考をフィルタリングし、思考メモリでそれらを整理し、新しいクエリに対処する際の関連する思考を検索できるようにすることです。
これにより、LLMベースのエージェントに、連続的な相互作用を通じてより機能的に成長する自己進化型長期記憶を効果的に装備する。
アルゴリズムの革新に加えて、我々はさらに慎重に新しいベンチマークであるAcademicEvalを準備し、LLMは現実世界の学術論文に基づいてクエリに答えるために、超長期のコンテキストを忠実に活用する必要がある。
AcademicEvalと他の2つの公開データセットに関する大規模な実験は、Thought-Retrieverが最先端のベースラインを著しく上回り、F1スコアの少なくとも7.6%、様々なタスクにおける勝利率の16%に達することを実証している。
さらに重要なことは、(1)Thought-Retrieverは、より多くのユーザクエリを解決した後、LLMの自己進化を支援することができる、(2)Thought-Retrieverは、より深い思考を活用してより抽象的なユーザクエリに答えることを学ぶ、という2つのエキサイティングな結果を示す。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - RRAML: Reinforced Retrieval Augmented Machine Learning [10.94680155282906]
我々はReinforced Retrieval Augmented Machine Learning (RRAML)と呼ばれる新しいフレームワークを提案する。
RRAMLは、大規模な言語モデルの推論機能と、巨大なユーザが提供するデータベースから目的に構築された検索者によって取得された情報を統合する。
この論文で概説された研究課題は、AIの分野に大きな影響を与える可能性があると信じている。
論文 参考訳(メタデータ) (2023-07-24T13:51:19Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。