Fugu-MT 論文翻訳(概要): Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

論文の概要: Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

arxiv url: http://arxiv.org/abs/2304.09542v1
Date: Wed, 19 Apr 2023 10:16:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-20 14:49:41.206610
Title: Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent
Title（参考訳）: chatgptは検索が得意か? Re-Ranking Agentとしての大規模言語モデルの検討
Authors: Weiwei Sun, Lingyong Yan, Xinyu Ma, Pengjie Ren, Dawei Yin, Zhaochun Ren
Abstract要約: 大規模言語モデル(LLM)は、ゼロショットを様々な言語関連タスクに一般化する驚くべき能力を示している。本稿では、情報検索(IR)における関連性ランキングのためのChatGPTやGPT-4などのジェネレーティブLLMの探索に関する研究に焦点をあてる。本稿では、ChatGPTとGPT-4を適切に指示することで、一般的なIRベンチマークにおける教師付き手法よりも、競争力のある結果が得られることを示す。
参考スコア（独自算出の注目度）: 52.29686942459044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated a remarkable ability to generalize zero-shot to various language-related tasks. This paper focuses on the study of exploring generative LLMs such as ChatGPT and GPT-4 for relevance ranking in Information Retrieval (IR). Surprisingly, our experiments reveal that properly instructed ChatGPT and GPT-4 can deliver competitive, even superior results than supervised methods on popular IR benchmarks. Notably, GPT-4 outperforms the fully fine-tuned monoT5-3B on MS MARCO by an average of 2.7 nDCG on TREC datasets, an average of 2.3 nDCG on eight BEIR datasets, and an average of 2.7 nDCG on ten low-resource languages Mr.TyDi. Subsequently, we delve into the potential for distilling the ranking capabilities of ChatGPT into a specialized model. Our small specialized model that trained on 10K ChatGPT generated data outperforms monoT5 trained on 400K annotated MS MARCO data on BEIR. The code to reproduce our results is available at www.github.com/sunnweiwei/RankGPT
Abstract（参考訳）: 大規模言語モデル(LLM)は、ゼロショットを様々な言語関連タスクに一般化する驚くべき能力を示している。本稿では,ChatGPT や GPT-4 などのジェネレーティブ LLM を探索し,情報検索(IR)における関連付けについて検討する。驚いたことに、我々の実験は、ChatGPTとGPT-4を適切に指示することで、一般的なIRベンチマークの教師付き手法よりも、競争力のある結果が得られることを示した。特に、gpt-4は、ms marcoのmonot5-3bを、tracデータセットで平均2.7 ndcg、beirデータセットで平均2.3 ndcg、低リソース言語で平均2.7 ndcgで上回っている。その後、ChatGPTのランキング能力を特別なモデルに抽出する可能性を探る。 10K ChatGPTでトレーニングした小型特殊モデルでは,400Kの注釈付きMS MARCOデータをBEIR上でトレーニングした monoT5 よりも優れていた。結果を再現するコードはwww.github.com/sunnweiwei/RankGPTで入手できる。

関連論文リスト

Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation [6.776829305448693]
大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を示し、自動エクスプロイト生成(AEG)の可能性への懸念を提起している。本稿では, AEG における LLM の有効性に関する最初の体系的研究を行い, 協調性と技術能力の評価を行った。
論文参考訳（メタデータ） (2025-05-02T07:15:22Z)
Best Practices for Distilling Large Language Models into BERT for Web Search Ranking [14.550458167328497]
LLM(Large Language Models)は、潜在的文書のランク付けリストを生成する。 LLMのランキングの専門知識をBERTのようなよりコンパクトなモデルに移行し、ランキングの損失を利用して、リソース集約の少ないモデルのデプロイを可能にします。 2024年2月現在,我々のモデルは商用ウェブ検索エンジンに統合されている。
論文参考訳（メタデータ） (2024-11-07T08:54:46Z)
Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators [22.567933207841968]
大規模言語モデル(LLM)とAIアシスタントは、専門家とアマチュアユーザーの両方で、指数関数的な利用増加を経験している。本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。複雑な科学概念に埋め込まれた742 Yes/No クエリからなる新しいデータセット SCiPS-QA を導入する。
論文参考訳（メタデータ） (2024-09-21T06:48:32Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models [5.0490573482829335]
大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。本稿では、情報検索(IR)における通過前の事前フィルタリングステップの使用について検討する。実験の結果, この事前フィルタリングにより, LLMは再ランクタスクにおいて, 性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-06-26T20:12:24Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。 LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文参考訳（メタデータ） (2024-03-27T22:05:10Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文参考訳（メタデータ） (2023-11-01T17:42:45Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。 LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文参考訳（メタデータ） (2023-05-15T17:57:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。