論文の概要: Reliable Confidence Intervals for Information Retrieval Evaluation Using Generative A.I
- arxiv url: http://arxiv.org/abs/2407.02464v1
- Date: Tue, 2 Jul 2024 17:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:27:11.805107
- Title: Reliable Confidence Intervals for Information Retrieval Evaluation Using Generative A.I
- Title(参考訳): 生成的A.Iを用いた情報検索評価のための信頼性信頼区間
- Authors: Harrie Oosterhuis, Rolf Jagerman, Zhen Qin, Xuanhui Wang, Michael Bendersky,
- Abstract要約: 大規模言語モデル(LLM)は、相対的に計算コストの少ない大規模で関連アノテーションを生成することができる。
本稿では,予測型推論と共形リスク制御に基づく2つの手法を提案する。
実験の結果,CIは評価のばらつきと偏りの両方を正確に捉えていることがわかった。
- 参考スコア(独自算出の注目度): 39.92942310783174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The traditional evaluation of information retrieval (IR) systems is generally very costly as it requires manual relevance annotation from human experts. Recent advancements in generative artificial intelligence -- specifically large language models (LLMs) -- can generate relevance annotations at an enormous scale with relatively small computational costs. Potentially, this could alleviate the costs traditionally associated with IR evaluation and make it applicable to numerous low-resource applications. However, generated relevance annotations are not immune to (systematic) errors, and as a result, directly using them for evaluation produces unreliable results. In this work, we propose two methods based on prediction-powered inference and conformal risk control that utilize computer-generated relevance annotations to place reliable confidence intervals (CIs) around IR evaluation metrics. Our proposed methods require a small number of reliable annotations from which the methods can statistically analyze the errors in the generated annotations. Using this information, we can place CIs around evaluation metrics with strong theoretical guarantees. Unlike existing approaches, our conformal risk control method is specifically designed for ranking metrics and can vary its CIs per query and document. Our experimental results show that our CIs accurately capture both the variance and bias in evaluation based on LLM annotations, better than the typical empirical bootstrapping estimates. We hope our contributions bring reliable evaluation to the many IR applications where this was traditionally infeasible.
- Abstract(参考訳): 従来の情報検索(IR)システムの評価は非常にコストがかかる。
生成人工知能(特に大規模言語モデル(LLM))の最近の進歩は、相対的に計算コストの少ない巨大なスケールで関連アノテーションを生成することができる。
これは、IR評価に関連するコストを軽減し、多数の低リソースアプリケーションに適用できるようにする可能性がある。
しかし、生成した関連アノテーションは(体系的な)エラーに免疫がなく、その結果、それらを評価に直接使用すると、信頼性の低い結果が得られる。
そこで本研究では,コンピュータが生成した関連アノテーションを用いて,IR評価指標の周囲に信頼性信頼区間(CI)を配置する,予測型推論と共形リスク制御に基づく2つの手法を提案する。
提案手法は,提案手法が生成したアノテーションの誤りを統計的に解析することのできる,少数の信頼度の高いアノテーションを必要とする。
この情報を使用することで、強力な理論的保証を備えた評価指標にCIを配置することが可能になります。
既存のアプローチとは異なり、我々のコンフォーマルリスク制御方法は、特にメトリクスのランク付け用に設計されており、クエリとドキュメント毎にCIを変更することができる。
実験結果から, LLMアノテーションに基づく評価における差分と偏差を精度良く把握し, 典型的なブートストラップ推定値よりも優れていることがわかった。
私たちのコントリビューションが、従来は実現不可能だった多くのIRアプリケーションに対して、信頼性の高い評価をもたらしてくれることを願っています。
関連論文リスト
- Evaluating Deep Neural Networks in Deployment (A Comparative and Replicability Study) [11.242083685224554]
ディープニューラルネットワーク(DNN)は、安全クリティカルなアプリケーションでますます利用されている。
デプロイにおけるDNNの信頼性を評価するために提案されている最近のアプローチについて検討する。
複製パッケージ上でこれらのアプローチの結果を実行して再現することは困難であり、それ自身以外のアーティファクト上でも実行することがさらに困難であることに気付きました。
論文 参考訳(メタデータ) (2024-07-11T17:58:12Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Towards Robust and Interpretable EMG-based Hand Gesture Recognition using Deep Metric Meta Learning [37.21211404608413]
本稿では,意味的かつ解釈可能な表現の作成を監督するために,EMG PRにおける深層メートル法メタラーニングへのシフトを提案する。
我々は、不正確な決定をよりよく拒否する頑健なクラス近接性に基づく信頼度推定器を導出する。
論文 参考訳(メタデータ) (2024-04-17T23:37:50Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation [13.325600043256552]
そこで本研究では,ヒトが観測不能な反事実軌道のアノテーションを提供する半オフライン評価フレームワークを提案する。
提案手法は,アノテーション・ソリケーションの原則に基づく設計と組み合わせることで,高次の領域における強化学習の活用を可能にする。
論文 参考訳(メタデータ) (2023-10-26T04:41:19Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。