論文の概要: Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents
- arxiv url: http://arxiv.org/abs/2304.09542v2
- Date: Fri, 27 Oct 2023 12:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:16:38.436806
- Title: Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents
- Title(参考訳): chatgptは検索が得意か?
エージェントとしての大規模言語モデルの検討
- Authors: Weiwei Sun, Lingyong Yan, Xinyu Ma, Shuaiqiang Wang, Pengjie Ren,
Zhumin Chen, Dawei Yin, Zhaochun Ren
- Abstract要約: 大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
- 参考スコア(独自算出の注目度): 56.104476412839944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable zero-shot
generalization across various language-related tasks, including search engines.
However, existing work utilizes the generative ability of LLMs for Information
Retrieval (IR) rather than direct passage ranking. The discrepancy between the
pre-training objectives of LLMs and the ranking objective poses another
challenge. In this paper, we first investigate generative LLMs such as ChatGPT
and GPT-4 for relevance ranking in IR. Surprisingly, our experiments reveal
that properly instructed LLMs can deliver competitive, even superior results to
state-of-the-art supervised methods on popular IR benchmarks. Furthermore, to
address concerns about data contamination of LLMs, we collect a new test set
called NovelEval, based on the latest knowledge and aiming to verify the
model's ability to rank unknown knowledge. Finally, to improve efficiency in
real-world applications, we delve into the potential for distilling the ranking
capabilities of ChatGPT into small specialized models using a permutation
distillation scheme. Our evaluation results turn out that a distilled 440M
model outperforms a 3B supervised model on the BEIR benchmark. The code to
reproduce our results is available at www.github.com/sunnweiwei/RankGPT.
- Abstract(参考訳): 大規模言語モデル(llm)は、検索エンジンを含む様々な言語関連タスクにわたる顕著なゼロショット一般化を示している。
しかし、既存の研究は、直接通過ランキングではなく、情報検索(IR)のためのLLMの生成能力を活用している。
LLMの事前学習目標とランキング目標との相違は、もうひとつの課題である。
本稿ではまず,ChatGPT や GPT-4 などのジェネレーティブ LLM をIR の関連性ランキングとして検討する。
意外なことに、我々の実験は、LLMを適切に訓練することで、一般的なIRベンチマークにおける最先端の教師付き手法に対して、競争力、さらには優れた結果を得ることができることを示した。
さらに,LSMのデータ汚染に関する懸念に対処するため,最新の知識に基づいて,未知の知識をランク付けするモデルの能力を検証することを目的とした,NovereEvalと呼ばれる新しいテストセットを収集した。
最後に, 実世界の応用における効率を向上させるため, 置換蒸留方式を用いてChatGPTのランキング能力を小型の特殊モデルに蒸留する可能性を探る。
その結果,蒸留した440MモデルはBEIRベンチマークで3B教師付きモデルよりも優れていた。
結果を再現するコードはwww.github.com/sunnweiwei/RankGPTで入手できる。
関連論文リスト
- Best Practices for Distilling Large Language Models into BERT for Web Search Ranking [14.550458167328497]
LLM(Large Language Models)は、潜在的文書のランク付けリストを生成する。
LLMのランキングの専門知識をBERTのようなよりコンパクトなモデルに移行し、ランキングの損失を利用して、リソース集約の少ないモデルのデプロイを可能にします。
2024年2月現在,我々のモデルは商用ウェブ検索エンジンに統合されている。
論文 参考訳(メタデータ) (2024-11-07T08:54:46Z) - Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators [22.567933207841968]
大規模言語モデル(LLM)とAIアシスタントは、専門家とアマチュアユーザーの両方で、指数関数的な利用増加を経験している。
本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。
複雑な科学概念に埋め込まれた742 Yes/No クエリからなる新しいデータセット SCiPS-QA を導入する。
論文 参考訳(メタデータ) (2024-09-21T06:48:32Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models [5.0490573482829335]
大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。
本稿では、情報検索(IR)における通過前の事前フィルタリングステップの使用について検討する。
実験の結果, この事前フィルタリングにより, LLMは再ランクタスクにおいて, 性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T20:12:24Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。