論文の概要: From Matching to Generation: A Survey on Generative Information Retrieval
- arxiv url: http://arxiv.org/abs/2404.14851v1
- Date: Tue, 23 Apr 2024 09:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:41:16.081225
- Title: From Matching to Generation: A Survey on Generative Information Retrieval
- Title(参考訳): マッチングから生成へ:生成情報検索に関する調査
- Authors: Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yuyao Zhang, Peitian Zhang, Yutao Zhu, Zhicheng Dou,
- Abstract要約: 生成情報検索(GenIR)は新たなパラダイムとして登場し,近年注目を集めている。
本稿では,GenIRの最新研究動向を体系的にレビューすることを目的とする。
- 参考スコア(独自算出の注目度): 21.56093567336119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information Retrieval (IR) systems are crucial tools for users to access information, widely applied in scenarios like search engines, question answering, and recommendation systems. Traditional IR methods, based on similarity matching to return ranked lists of documents, have been reliable means of information acquisition, dominating the IR field for years. With the advancement of pre-trained language models, generative information retrieval (GenIR) has emerged as a novel paradigm, gaining increasing attention in recent years. Currently, research in GenIR can be categorized into two aspects: generative document retrieval (GR) and reliable response generation. GR leverages the generative model's parameters for memorizing documents, enabling retrieval by directly generating relevant document identifiers without explicit indexing. Reliable response generation, on the other hand, employs language models to directly generate the information users seek, breaking the limitations of traditional IR in terms of document granularity and relevance matching, offering more flexibility, efficiency, and creativity, thus better meeting practical needs. This paper aims to systematically review the latest research progress in GenIR. We will summarize the advancements in GR regarding model training, document identifier, incremental learning, downstream tasks adaptation, multi-modal GR and generative recommendation, as well as progress in reliable response generation in aspects of internal knowledge memorization, external knowledge augmentation, generating response with citations and personal information assistant. We also review the evaluation, challenges and future prospects in GenIR systems. This review aims to offer a comprehensive reference for researchers in the GenIR field, encouraging further development in this area.
- Abstract(参考訳): 情報検索システム(Information Retrieval、IR)は、ユーザーが情報にアクセスするための重要なツールであり、検索エンジン、質問応答、レコメンデーションシステムなどのシナリオに広く適用されている。
従来のIR手法は、文書のランク付けリストを返却する類似性マッチングに基づいており、情報取得の信頼性が高く、IR分野を支配してきた。
事前学習言語モデルの発展に伴い、生成情報検索(GenIR)は新たなパラダイムとして登場し、近年注目されている。
現在、GenIRの研究は、生成文書検索(GR)と信頼できる応答生成の2つの側面に分類できる。
GRは生成モデルのパラメータを利用して文書を記憶し、明示的なインデックス付けなしに関連する文書識別子を直接生成することで検索を可能にする。
一方、信頼性の高い応答生成は、ユーザーが求める情報を直接生成するために言語モデルを使用し、ドキュメントの粒度と関連性マッチングの点で従来のIRの限界を破り、柔軟性、効率、創造性を向上し、実用的なニーズを満たす。
本稿では,GenIRの最新研究動向を体系的にレビューすることを目的とする。
本稿では、モデルトレーニング、文書識別子、インクリメンタルラーニング、下流タスク適応、マルチモーダルGRおよびジェネレーティブレコメンデーションに関するGRの進歩と、内部知識記憶、外部知識増強、引用とパーソナル情報アシスタントによる応答生成における信頼性の高い応答生成の進展について要約する。
我々はまた、GenIRシステムの評価、課題、今後の展望についてもレビューする。
このレビューは、GenIR分野の研究者に包括的なリファレンスを提供することを目的としており、この分野のさらなる発展を奨励している。
関連論文リスト
- CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - Evaluating Generative Ad Hoc Information Retrieval [44.835859036177]
生成検索システムは、従来の文書ランキングではなく、情報要求に応じて、接地された生成されたテキストを返却する。
これらの応答の有効性を定量化することは、生成的検索システムを評価する上で不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - Gen-IR @ SIGIR 2023: The First Workshop on Generative Information
Retrieval [32.45182506899627]
このワークショップの目的は、文書検索やグラウンドド・アンサー・ジェネレーションのような生成IR技術に焦点を当てることである。
ワークショップの形式は、ラウンドテーブルや基調講演など、インタラクティブで、ミニ会議の一方的な対話を避ける傾向があります。
論文 参考訳(メタデータ) (2023-06-05T13:56:36Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。