論文の概要: On the Merits of LLM-Based Corpus Enrichment
- arxiv url: http://arxiv.org/abs/2506.06015v1
- Date: Fri, 06 Jun 2025 12:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.460109
- Title: On the Merits of LLM-Based Corpus Enrichment
- Title(参考訳): LLM-based Corpus Enrichment のメリットについて
- Authors: Gal Zur, Tommy Mordo, Moshe Tennenholtz, Oren Kurland,
- Abstract要約: 我々は、genAIを使って文書コーパスを充実させるという、新しい視点を主張する。
エンリッチメントは、既存のドキュメントを変更したり、新しいドキュメントを生成することに基づいている。
- 参考スコア(独自算出の注目度): 11.398498369228571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI (genAI) technologies -- specifically, large language models (LLMs) -- and search have evolving relations. We argue for a novel perspective: using genAI to enrich a document corpus so as to improve query-based retrieval effectiveness. The enrichment is based on modifying existing documents or generating new ones. As an empirical proof of concept, we use LLMs to generate documents relevant to a topic which are more retrievable than existing ones. In addition, we demonstrate the potential merits of using corpus enrichment for retrieval augmented generation (RAG) and answer attribution in question answering.
- Abstract(参考訳): ジェネレーティブAI(genAI)技術 -- 特に大きな言語モデル(LLM) -- と検索は進化している。
我々は、genAIを用いてドキュメントコーパスを充実させ、クエリベースの検索効率を向上させるという、新しい視点を論じる。
エンリッチメントは、既存のドキュメントを変更したり、新しいドキュメントを生成することに基づいている。
実証的な概念実証として,我々は LLM を用いて,既存のものよりも検索可能なトピックに関連する文書を生成する。
さらに,コーパス・エンリッチメント(コーパス・エンリッチメント)を検索拡張生成(RAG)に応用し,質問応答の帰属性を示す。
関連論文リスト
- ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。