論文の概要: Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework
- arxiv url: http://arxiv.org/abs/2411.09607v1
- Date: Thu, 14 Nov 2024 17:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:45.314389
- Title: Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework
- Title(参考訳): AutoNuggetizer Frameworkを用いたTREC 2024 RAGトラックの初期Nugget評価結果
- Authors: Ronak Pradeep, Nandan Thakur, Shivani Upadhyay, Daniel Campos, Nick Craswell, Jimmy Lin,
- Abstract要約: 本報告では、TREC 2024 Retrieval-Augmented Generation (RAG) Trackの部分的な結果について概説する。
我々は、情報アクセスの継続的な進歩の障壁としてRAG評価を特定した。
- 参考スコア(独自算出の注目度): 53.12387628636912
- License:
- Abstract: This report provides an initial look at partial results from the TREC 2024 Retrieval-Augmented Generation (RAG) Track. We have identified RAG evaluation as a barrier to continued progress in information access (and more broadly, natural language processing and artificial intelligence), and it is our hope that we can contribute to tackling the many challenges in this space. The central hypothesis we explore in this work is that the nugget evaluation methodology, originally developed for the TREC Question Answering Track in 2003, provides a solid foundation for evaluating RAG systems. As such, our efforts have focused on "refactoring" this methodology, specifically applying large language models to both automatically create nuggets and to automatically assign nuggets to system answers. We call this the AutoNuggetizer framework. Within the TREC setup, we are able to calibrate our fully automatic process against a manual process whereby nuggets are created by human assessors semi-manually and then assigned manually to system answers. Based on initial results across 21 topics from 45 runs, we observe a strong correlation between scores derived from a fully automatic nugget evaluation and a (mostly) manual nugget evaluation by human assessors. This suggests that our fully automatic evaluation process can be used to guide future iterations of RAG systems.
- Abstract(参考訳): 本報告では、TREC 2024 Retrieval-Augmented Generation (RAG) Trackの部分的な結果について概説する。
我々は、RAG評価を、情報アクセスの継続的な進歩(そしてより広範に自然言語処理と人工知能)の障壁であると認識し、この分野における多くの課題に取り組むことに貢献できることを願っている。
本研究の中心的な仮説は,2003年にTREC質問回答トラック用に開発されたナゲット評価手法が,RAGシステム評価の基盤となることである。
そこで本研究では,この方法論の「リファクタリング」に重点を置いており,特に大規模言語モデルを適用してナゲットを自動生成し,システム回答にナゲットを自動的に割り当てている。
これをAutoNuggetizerフレームワークと呼びます。
TRECセットアップ内では、人間の評価者が手動でナゲットを作成し、手動でシステム回答を割り当てる手動プロセスに対して、完全な自動処理を調整できます。
45ランから21項目までの初期結果に基づいて,完全自動ナゲット評価から得られるスコアと,人手によるナゲット評価(主に手動ナゲット評価)との間に強い相関関係が認められた。
このことは,RAGシステムの今後のイテレーションをガイドするために,我々の完全自動評価プロセスが利用可能であることを示唆している。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - ASAG2024: A Combined Benchmark for Short Answer Grading [0.10826342457160269]
短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。
様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。
我々は、自動階調システムの比較を容易にするために、ASAG2024ベンチマークを導入した。
論文 参考訳(メタデータ) (2024-09-27T09:56:02Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。
本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。
分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文 参考訳(メタデータ) (2024-06-06T09:18:42Z) - Towards a Search Engine for Machines: Unified Ranking for Multiple Retrieval-Augmented Large Language Models [21.115495457454365]
uRAGは、複数の下流検索拡張生成システム(RAG)を提供する統合検索エンジンを備えたフレームワークである。
我々は、訓練に従事する18のRAGシステムと、uRAGを検索エンジンの新規ユーザとして使用する18の未知のRAGシステムからなる大規模な実験エコシステムを構築した。
論文 参考訳(メタデータ) (2024-04-30T19:51:37Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。