Fugu-MT 論文翻訳(概要): Large Language Models are Built-in Autoregressive Search Engines

論文の概要: Large Language Models are Built-in Autoregressive Search Engines

arxiv url: http://arxiv.org/abs/2305.09612v1
Date: Tue, 16 May 2023 17:04:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 13:50:54.408796
Title: Large Language Models are Built-in Autoregressive Search Engines
Title（参考訳）: 大規模言語モデルは自己回帰型検索エンジンに組み込まれている
Authors: Noah Ziems, Wenhao Yu, Zhihan Zhang, Meng Jiang
Abstract要約: 大規模言語モデル(LLM)は、人間の指示に従って文書検索用のURLを直接生成することができる。 LLMは、対応するドキュメントの90%近くが、オープンドメインの質問に対する正しい回答を含むWebURLを生成することができる。
参考スコア（独自算出の注目度）: 19.928494069013485
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document retrieval is a key stage of standard Web search engines. Existing dual-encoder dense retrievers obtain representations for questions and documents independently, allowing for only shallow interactions between them. To overcome this limitation, recent autoregressive search engines replace the dual-encoder architecture by directly generating identifiers for relevant documents in the candidate pool. However, the training cost of such autoregressive search engines rises sharply as the number of candidate documents increases. In this paper, we find that large language models (LLMs) can follow human instructions to directly generate URLs for document retrieval. Surprisingly, when providing a few {Query-URL} pairs as in-context demonstrations, LLMs can generate Web URLs where nearly 90\% of the corresponding documents contain correct answers to open-domain questions. In this way, LLMs can be thought of as built-in search engines, since they have not been explicitly trained to map questions to document identifiers. Experiments demonstrate that our method can consistently achieve better retrieval performance than existing retrieval approaches by a significant margin on three open-domain question answering benchmarks, under both zero and few-shot settings. The code for this work can be found at \url{https://github.com/Ziems/llm-url}.
Abstract（参考訳）: 文書検索は標準ウェブ検索エンジンの重要な段階である。既存のデュアルエンコーダ高密度検索器は、問合せと文書を独立に表現し、それら間の浅い相互作用のみを可能にする。この制限を克服するため、最近の自動回帰検索エンジンは、候補プール内の関連文書の識別子を直接生成することで、デュアルエンコーダアーキテクチャを置き換える。しかし,このような自己回帰型検索エンジンの学習コストは,候補文書数の増加とともに急激に上昇している。本稿では,大規模言語モデル (LLM) が人間の指示に従って文書検索用URLを直接生成できることを見出した。驚いたことに、いくつかの {Query-URL} ペアをインコンテキストのデモとして提供すると、LCM は Web URL を生成することができる。このように、llmは、質問をドキュメント識別子にマップするために明示的に訓練されていないため、組み込み検索エンジンと考えることができる。実験により,提案手法が既存の検索手法よりも優れた検索性能を,ゼロ・少数設定の3つのオープンドメイン質問応答ベンチマークにおいて有意差で達成できることが実証された。この研究のコードは \url{https://github.com/Ziems/llm-url} にある。

関連論文リスト

SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement [17.272061289197342]
Document Visual Question Answering (DocVQA)は実用的で難しいタスクである。最近の手法は、同様のRAG(Retrieval Augmented Generation)パイプラインに従う。 DocVQA用の拡張フレームワークであるSimpleDocを紹介します。
論文参考訳（メタデータ） (2025-06-16T22:15:58Z)
Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文参考訳（メタデータ） (2025-06-09T17:58:35Z)
ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。 ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文参考訳（メタデータ） (2025-05-23T17:02:02Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文参考訳（メタデータ） (2024-03-08T11:09:13Z)
Generator-Retriever-Generator Approach for Open-Domain Question Answering [18.950517545413813]
文書検索手法と大規模言語モデル(LLM)を組み合わせた新しい手法を提案する。並行して、デュアルエンコーダネットワークは、外部コーパスから質問に関連する文書を検索する。 GRGは最先端のgenerator-then-readおよびrecovery-then-readパイプラインより優れている。
論文参考訳（メタデータ） (2023-07-21T00:34:38Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
Learning Diverse Document Representations with Deep Query Interactions for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文参考訳（メタデータ） (2022-08-08T16:00:55Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。