論文の概要: Recursive Abstractive Processing for Retrieval in Dynamic Datasets
- arxiv url: http://arxiv.org/abs/2410.01736v1
- Date: Wed, 2 Oct 2024 16:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:43:48.620010
- Title: Recursive Abstractive Processing for Retrieval in Dynamic Datasets
- Title(参考訳): 動的データセットにおける検索のための再帰的抽象処理
- Authors: Charbel Chucri, Rami Azouz, Joachim Ott,
- Abstract要約: 本研究では,動的データセットにおける再帰的・漸進的木構造を効率的に維持するアルゴリズムを提案する。
また,クエリ中心の抽象処理を適用し,文脈品質を大幅に改善する検索後検索手法を提案する。
本手法は,検索アルゴリズムと互換性のあるブラックボックス後検索層として機能することで,他の手法の限界を克服する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent retrieval-augmented models enhance basic methods by building a hierarchical structure over retrieved text chunks through recursive embedding, clustering, and summarization. The most relevant information is then retrieved from both the original text and generated summaries. However, such approaches face limitations with dynamic datasets, where adding or removing documents over time complicates the updating of hierarchical representations formed through clustering. We propose a new algorithm to efficiently maintain the recursive-abstractive tree structure in dynamic datasets, without compromising performance. Additionally, we introduce a novel post-retrieval method that applies query-focused recursive abstractive processing to substantially improve context quality. Our method overcomes the limitations of other approaches by functioning as a black-box post-retrieval layer compatible with any retrieval algorithm. Both algorithms are validated through extensive experiments on real-world datasets, demonstrating their effectiveness in handling dynamic data and improving retrieval performance.
- Abstract(参考訳): 近年の検索強化モデルは,再帰的埋め込み,クラスタリング,要約によって,検索したテキストチャンク上に階層構造を構築することで,基本的な手法を強化している。
そして、最も関連性の高い情報は、元のテキストと生成された要約の両方から検索される。
しかし、このようなアプローチは動的データセットによる制限に直面しており、文書の追加や削除はクラスタリングによって形成された階層的な表現の更新を複雑にする。
本稿では,動的データセットにおける再帰的木構造を,性能を損なうことなく効率的に維持するアルゴリズムを提案する。
さらに,クエリに着目した再帰的抽象処理を適用し,文脈品質を大幅に改善する検索後検索手法を提案する。
本手法は,検索アルゴリズムと互換性のあるブラックボックス後検索層として機能することで,他の手法の限界を克服する。
両方のアルゴリズムは実世界のデータセットに関する広範な実験を通じて検証され、動的データ処理の有効性と検索性能の向上を実証している。
関連論文リスト
- HIRO: Hierarchical Information Retrieval Optimization [0.0]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)に動的に統合することで自然言語処理に革命をもたらした。
RAGの最近の実装は階層的なデータ構造を活用し、様々なレベルの要約と情報密度で文書を整理している。
この複雑さにより、LSMは情報過負荷で"チョーク"し、より洗練されたクエリ機構を必要とする。
論文 参考訳(メタデータ) (2024-06-14T12:41:07Z) - Contextual Categorization Enhancement through LLMs Latent-Space [0.31263095816232184]
本稿では,ウィキペディアデータセットのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
論文 参考訳(メタデータ) (2024-04-25T09:20:51Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval [26.527911244587134]
本稿では,テキストの集合体への埋め込み,クラスタリング,要約という新たなアプローチを導入し,下から異なるレベルの要約レベルを持つ木を構築する。
我々のRAPTORモデルは、推測時にこの木から取得し、異なるレベルの抽象化で長いドキュメントにまたがる情報を統合します。
論文 参考訳(メタデータ) (2024-01-31T18:30:21Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Document-Level Abstractive Summarization [0.0]
非常に長いテキストの自動要約を改善するために,トランスフォーマー技術がいかに効果的かを検討する。
より小さなチャンクを処理して文書全体の要約を生成するコストを削減できる新しい検索強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-06T14:39:09Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。