論文の概要: CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory
- arxiv url: http://arxiv.org/abs/2601.02708v1
- Date: Tue, 06 Jan 2026 04:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.800836
- Title: CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory
- Title(参考訳): CREAM: 適応型ソフトメモリを用いた動的ストリーミングコーパスの連続検索
- Authors: HuiJeong Son, Hyeongu Kang, Sunho Kim, Subeen Ho, SeongKu Kang, Dongha Lee, Susik Yoon,
- Abstract要約: CREAMは、メモリベースの連続検索のための自己教師型フレームワークである。
教師なしの環境では、目に見えないトピックと見えないトピックの両方に適応します。
2つのベンチマークデータセットの実験は、CREAMが優れた適応性と精度を示すことを示した。
- 参考スコア(独自算出の注目度): 19.64051996386645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information retrieval (IR) in dynamic data streams is emerging as a challenging task, as shifts in data distribution degrade the performance of AI-powered IR systems. To mitigate this issue, memory-based continual learning has been widely adopted for IR. However, existing methods rely on a fixed set of queries with ground-truth relevant documents, which limits generalization to unseen queries and documents, making them impractical for real-world applications. To enable more effective learning with unseen topics of a new corpus without ground-truth labels, we propose CREAM, a self-supervised framework for memory-based continual retrieval. CREAM captures the evolving semantics of streaming queries and documents into dynamically structured soft memory and leverages it to adapt to both seen and unseen topics in an unsupervised setting. We realize this through three key techniques: fine-grained similarity estimation, regularized cluster prototyping, and stratified coreset sampling. Experiments on two benchmark datasets demonstrate that CREAM exhibits superior adaptability and retrieval accuracy, outperforming the strongest method in a label-free setting by 27.79\% in Success@5 and 44.5\% in Recall@10 on average, and achieving performance comparable to or even exceeding that of supervised methods.
- Abstract(参考訳): 動的データストリームにおける情報検索(IR)は、データ分散のシフトがAI駆動のIRシステムの性能を低下させるため、難しい課題として浮上している。
この問題を緩和するために、メモリベースの連続学習がIRに広く採用されている。
しかし,既存の手法では,クエリやドキュメントへの一般化を制限し,現実のアプリケーションでは実用的でないような,基幹的関連ドキュメントによるクエリの固定セットに依存している。
そこで本研究では,新たなコーパスの未知のトピックをゼロトラストラベルなしでより効果的に学習できるようにするために,メモリベース連続検索のための自己教師型フレームワークであるCREAMを提案する。
CREAMは、ストリーミングクエリとドキュメントの進化するセマンティクスを動的に構造化されたソフトメモリにキャプチャし、それを利用して、教師なしの設定で見えないトピックと見えないトピックの両方に適応する。
我々はこれを,微細な類似度推定,正規化クラスタプロトタイピング,階層化コアセットサンプリングという3つの重要な手法によって実現した。
2つのベンチマークデータセットの実験では、CREAMは優れた適応性と検索精度を示し、ラベルなし環境では27.79\%、Recall@10では44.5\%、教師付きメソッドと同等かそれ以上のパフォーマンスを達成した。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。
我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。
本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-10T15:56:03Z) - Locally Adaptive One-Class Classifier Fusion with Dynamic $\ell$p-Norm Constraints for Robust Anomaly Detection [17.93058599783703]
局所的なデータ特性に基づいて,融合重みを動的に調整するフレームワークを提案する。
本手法は,計算効率を大幅に向上させる内部点最適化手法を取り入れたものである。
計算効率を維持しながらローカルなデータパターンに適応できるフレームワークの能力は、リアルタイムアプリケーションに特に有用である。
論文 参考訳(メタデータ) (2024-11-10T09:57:13Z) - Adaptive Retention & Correction: Test-Time Training for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。