論文の概要: Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents
- arxiv url: http://arxiv.org/abs/2304.09542v2
- Date: Fri, 27 Oct 2023 12:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:16:38.436806
- Title: Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents
- Title(参考訳): chatgptは検索が得意か?
エージェントとしての大規模言語モデルの検討
- Authors: Weiwei Sun, Lingyong Yan, Xinyu Ma, Shuaiqiang Wang, Pengjie Ren,
Zhumin Chen, Dawei Yin, Zhaochun Ren
- Abstract要約: 大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
- 参考スコア(独自算出の注目度): 56.104476412839944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable zero-shot
generalization across various language-related tasks, including search engines.
However, existing work utilizes the generative ability of LLMs for Information
Retrieval (IR) rather than direct passage ranking. The discrepancy between the
pre-training objectives of LLMs and the ranking objective poses another
challenge. In this paper, we first investigate generative LLMs such as ChatGPT
and GPT-4 for relevance ranking in IR. Surprisingly, our experiments reveal
that properly instructed LLMs can deliver competitive, even superior results to
state-of-the-art supervised methods on popular IR benchmarks. Furthermore, to
address concerns about data contamination of LLMs, we collect a new test set
called NovelEval, based on the latest knowledge and aiming to verify the
model's ability to rank unknown knowledge. Finally, to improve efficiency in
real-world applications, we delve into the potential for distilling the ranking
capabilities of ChatGPT into small specialized models using a permutation
distillation scheme. Our evaluation results turn out that a distilled 440M
model outperforms a 3B supervised model on the BEIR benchmark. The code to
reproduce our results is available at www.github.com/sunnweiwei/RankGPT.
- Abstract(参考訳): 大規模言語モデル(llm)は、検索エンジンを含む様々な言語関連タスクにわたる顕著なゼロショット一般化を示している。
しかし、既存の研究は、直接通過ランキングではなく、情報検索(IR)のためのLLMの生成能力を活用している。
LLMの事前学習目標とランキング目標との相違は、もうひとつの課題である。
本稿ではまず,ChatGPT や GPT-4 などのジェネレーティブ LLM をIR の関連性ランキングとして検討する。
意外なことに、我々の実験は、LLMを適切に訓練することで、一般的なIRベンチマークにおける最先端の教師付き手法に対して、競争力、さらには優れた結果を得ることができることを示した。
さらに,LSMのデータ汚染に関する懸念に対処するため,最新の知識に基づいて,未知の知識をランク付けするモデルの能力を検証することを目的とした,NovereEvalと呼ばれる新しいテストセットを収集した。
最後に, 実世界の応用における効率を向上させるため, 置換蒸留方式を用いてChatGPTのランキング能力を小型の特殊モデルに蒸留する可能性を探る。
その結果,蒸留した440MモデルはBEIRベンチマークで3B教師付きモデルよりも優れていた。
結果を再現するコードはwww.github.com/sunnweiwei/RankGPTで入手できる。
関連論文リスト
- Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement [40.57471062885033]
我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。