論文の概要: RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models
- arxiv url: http://arxiv.org/abs/2309.15088v1
- Date: Tue, 26 Sep 2023 17:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 12:42:59.877809
- Title: RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models
- Title(参考訳): rankvicuna: オープンソースの大規模言語モデルによるゼロショットリストワイズドキュメントの再ランキング
- Authors: Ronak Pradeep, Sahel Sharifymoghaddam, Jimmy Lin
- Abstract要約: ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
- 参考スコア(独自算出の注目度): 56.51705482912727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have successfully applied large language models (LLMs) such as
ChatGPT to reranking in an information retrieval context, but to date, such
work has mostly been built on proprietary models hidden behind opaque API
endpoints. This approach yields experimental results that are not reproducible
and non-deterministic, threatening the veracity of outcomes that build on such
shaky foundations. To address this significant shortcoming, we present
RankVicuna, the first fully open-source LLM capable of performing high-quality
listwise reranking in a zero-shot setting. Experimental results on the TREC
2019 and 2020 Deep Learning Tracks show that we can achieve effectiveness
comparable to zero-shot reranking with GPT-3.5 with a much smaller 7B parameter
model, although our effectiveness remains slightly behind reranking with GPT-4.
We hope our work provides the foundation for future research on reranking with
modern LLMs. All the code necessary to reproduce our results is available at
https://github.com/castorini/rank_llm.
- Abstract(参考訳): 研究者は、ChatGPTのような大きな言語モデル(LLM)を情報検索のコンテキストで再ランク付けするのに成功しましたが、これまではほとんどが不透明なAPIエンドポイントの背後に隠されたプロプライエタリなモデル上に構築されています。
このアプローチは再現不可能で決定的ではない実験結果をもたらし、このような不安定な基盤の上に構築される結果の妥当性を脅かす。
この重大な欠点に対処するため、ゼロショット設定で高品質なリストワイズを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
われわれの研究が将来のLLMの再評価研究の基礎となることを願っている。
結果の再現に必要なコードはhttps://github.com/castorini/rank_llm.com/で閲覧できます。
関連論文リスト
- See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models [5.0490573482829335]
大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。
本稿では、情報検索(IR)における通過前の事前フィルタリングステップの使用について検討する。
実験の結果, この事前フィルタリングにより, LLMは再ランクタスクにおいて, 性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T20:12:24Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Rank-without-GPT: Building GPT-Independent Listwise Rerankers on
Open-Source Large Language Models [59.52207546810294]
大型言語モデル(LLM)に基づくリストワイズリランカはゼロショットの最先端である。
本研究では,GPTに依存しないリストワイズリランカを初めて構築する。
GPT-3.5に基づくリストワイド・リランカを13%上回り, GPT-4をベースとしたリストワイド・リランカの97%の有効性を実現した。
論文 参考訳(メタデータ) (2023-12-05T18:57:40Z) - The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging
Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。
LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文 参考訳(メタデータ) (2023-10-20T02:37:44Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。