Fugu-MT 論文翻訳(概要): RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models

論文の概要: RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models

arxiv url: http://arxiv.org/abs/2309.15088v1
Date: Tue, 26 Sep 2023 17:31:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 12:42:59.877809
Title: RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
Title（参考訳）: rankvicuna: オープンソースの大規模言語モデルによるゼロショットリストワイズドキュメントの再ランキング
Authors: Ronak Pradeep, Sahel Sharifymoghaddam, Jimmy Lin
Abstract要約: ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。 TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
参考スコア（独自算出の注目度）: 56.51705482912727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Researchers have successfully applied large language models (LLMs) such as ChatGPT to reranking in an information retrieval context, but to date, such work has mostly been built on proprietary models hidden behind opaque API endpoints. This approach yields experimental results that are not reproducible and non-deterministic, threatening the veracity of outcomes that build on such shaky foundations. To address this significant shortcoming, we present RankVicuna, the first fully open-source LLM capable of performing high-quality listwise reranking in a zero-shot setting. Experimental results on the TREC 2019 and 2020 Deep Learning Tracks show that we can achieve effectiveness comparable to zero-shot reranking with GPT-3.5 with a much smaller 7B parameter model, although our effectiveness remains slightly behind reranking with GPT-4. We hope our work provides the foundation for future research on reranking with modern LLMs. All the code necessary to reproduce our results is available at https://github.com/castorini/rank_llm.
Abstract（参考訳）: 研究者は、ChatGPTのような大きな言語モデル(LLM)を情報検索のコンテキストで再ランク付けするのに成功しましたが、これまではほとんどが不透明なAPIエンドポイントの背後に隠されたプロプライエタリなモデル上に構築されています。このアプローチは再現不可能で決定的ではない実験結果をもたらし、このような不安定な基盤の上に構築される結果の妥当性を脅かす。この重大な欠点に対処するため、ゼロショット設定で高品質なリストワイズを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。 TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。われわれの研究が将来のLLMの再評価研究の基礎となることを願っている。結果の再現に必要なコードはhttps://github.com/castorini/rank_llm.com/で閲覧できます。

関連論文リスト

See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models [5.0490573482829335]
大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。本稿では、情報検索(IR)における通過前の事前フィルタリングステップの使用について検討する。実験の結果, この事前フィルタリングにより, LLMは再ランクタスクにおいて, 性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-06-26T20:12:24Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models [59.52207546810294]
大型言語モデル(LLM)に基づくリストワイズリランカはゼロショットの最先端である。本研究では,GPTに依存しないリストワイズリランカを初めて構築する。 GPT-3.5に基づくリストワイド・リランカを13%上回り, GPT-4をベースとしたリストワイド・リランカの97%の有効性を実現した。
論文参考訳（メタデータ） (2023-12-05T18:57:40Z)
The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。 LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文参考訳（メタデータ） (2023-10-20T02:37:44Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文参考訳（メタデータ） (2023-04-13T18:04:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。