論文の概要: UMBRELA: UMbrela is the (Open-Source Reproduction of the) Bing RELevance Assessor
- arxiv url: http://arxiv.org/abs/2406.06519v1
- Date: Mon, 10 Jun 2024 17:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 22:08:57.701455
- Title: UMBRELA: UMbrela is the (Open-Source Reproduction of the) Bing RELevance Assessor
- Title(参考訳): UMBRELA: UMbrelaは(オープンソース化された) Bing Relevance Assessor
- Authors: Shivani Upadhyay, Ronak Pradeep, Nandan Thakur, Nick Craswell, Jimmy Lin,
- Abstract要約: UMBRELAはオープンソースツールキットで、OpenAIのGPT-4oモデルを使ってThomasらの結果を再現する。
我々のツールキットは、容易に研究できるように設計されており、既存の多段階検索および評価パイプラインに統合することができる。
UMBRELAはTREC 2024RAGトラックで、関連性評価を支援するために使用される。
- 参考スコア(独自算出の注目度): 51.20527342770299
- License:
- Abstract: Copious amounts of relevance judgments are necessary for the effective training and accurate evaluation of retrieval systems. Conventionally, these judgments are made by human assessors, rendering this process expensive and laborious. A recent study by Thomas et al. from Microsoft Bing suggested that large language models (LLMs) can accurately perform the relevance assessment task and provide human-quality judgments, but unfortunately their study did not yield any reusable software artifacts. Our work presents UMBRELA (a recursive acronym that stands for UMbrela is the Bing RELevance Assessor), an open-source toolkit that reproduces the results of Thomas et al. using OpenAI's GPT-4o model and adds more nuance to the original paper. Across Deep Learning Tracks from TREC 2019 to 2023, we find that LLM-derived relevance judgments correlate highly with rankings generated by effective multi-stage retrieval systems. Our toolkit is designed to be easily extensible and can be integrated into existing multi-stage retrieval and evaluation pipelines, offering researchers a valuable resource for studying retrieval evaluation methodologies. UMBRELA will be used in the TREC 2024 RAG Track to aid in relevance assessments, and we envision our toolkit becoming a foundation for further innovation in the field. UMBRELA is available at https://github.com/castorini/umbrela.
- Abstract(参考訳): 検索システムの効果的なトレーニングおよび正確な評価には,関連性判断の膨大な量が必要である。
伝統的に、これらの判断は人間の評価者によってなされ、このプロセスは高価で労力がかかる。
Microsoft BingのThomasらによる最近の研究によると、大きな言語モデル(LLM)は、関連性評価タスクを正確に実行し、品質判断を提供することができるが、残念なことに、彼らの研究は再利用可能なソフトウェアアーティファクトを得られなかった。
UMBRELA(UMbrelaの略でBing RELevance Assessor)は、OpenAIのGPT-4oモデルを用いてThomasらの結果を再現し、元の論文にさらにニュアンスを加えるオープンソースツールキットである。
TREC 2019から2023年までの深層学習トラックにおいて,LLMに基づく関連判断は,有効な多段階検索システムによって生成されたランキングと高い相関関係があることが判明した。
我々のツールキットは容易に拡張可能で、既存の多段階検索・評価パイプラインに統合できるように設計されており、研究者が評価手法を研究する上で貴重な資源となっている。
UMBRELA は TREC 2024 RAG Track で関連性評価を支援するために使用される。
UMBRELAはhttps://github.com/castorini/umbrela.comで入手できる。
関連論文リスト
- Evaluating the Impact of Advanced LLM Techniques on AI-Lecture Tutors for a Robotics Course [0.35132421583441026]
本研究では,大規模言語モデル(LLM)を人工知能を用いた大学授業用チューターとして評価する。
特に、プロンプトエンジニアリング、Retrieval-Augmented-Generation (RAG)、ファインチューニングなど、様々な高度な技術が利用されている。
以上の結果から,RAGと迅速なエンジニアリングを組み合わせることで,モデル応答が大幅に向上し,より優れた事実解が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-02T19:49:19Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - LitLLM: A Toolkit for Scientific Literature Review [15.080020634480272]
Toolkit は Retrieval Augmented Generation (RAG) の原則に基づいている。
システムはまずWeb検索を開始し、関連書類を検索する。
第2に、ユーザが提供する抽象化に基づいて、検索した論文を再ランクする。
第3に、再ランクされた結果と要約に基づいて、関連する作業部を生成する。
論文 参考訳(メタデータ) (2024-02-02T02:41:28Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。