論文の概要: On the Merits of LLM-Based Corpus Enrichment
- arxiv url: http://arxiv.org/abs/2506.06015v1
- Date: Fri, 06 Jun 2025 12:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.460109
- Title: On the Merits of LLM-Based Corpus Enrichment
- Title(参考訳): LLM-based Corpus Enrichment のメリットについて
- Authors: Gal Zur, Tommy Mordo, Moshe Tennenholtz, Oren Kurland,
- Abstract要約: 我々は、genAIを使って文書コーパスを充実させるという、新しい視点を主張する。
エンリッチメントは、既存のドキュメントを変更したり、新しいドキュメントを生成することに基づいている。
- 参考スコア(独自算出の注目度): 11.398498369228571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI (genAI) technologies -- specifically, large language models (LLMs) -- and search have evolving relations. We argue for a novel perspective: using genAI to enrich a document corpus so as to improve query-based retrieval effectiveness. The enrichment is based on modifying existing documents or generating new ones. As an empirical proof of concept, we use LLMs to generate documents relevant to a topic which are more retrievable than existing ones. In addition, we demonstrate the potential merits of using corpus enrichment for retrieval augmented generation (RAG) and answer attribution in question answering.
- Abstract(参考訳): ジェネレーティブAI(genAI)技術 -- 特に大きな言語モデル(LLM) -- と検索は進化している。
我々は、genAIを用いてドキュメントコーパスを充実させ、クエリベースの検索効率を向上させるという、新しい視点を論じる。
エンリッチメントは、既存のドキュメントを変更したり、新しいドキュメントを生成することに基づいている。
実証的な概念実証として,我々は LLM を用いて,既存のものよりも検索可能なトピックに関連する文書を生成する。
さらに,コーパス・エンリッチメント(コーパス・エンリッチメント)を検索拡張生成(RAG)に応用し,質問応答の帰属性を示す。
関連論文リスト
- DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。