論文の概要: Moving Beyond Downstream Task Accuracy for Information Retrieval
Benchmarking
- arxiv url: http://arxiv.org/abs/2212.01340v1
- Date: Fri, 2 Dec 2022 17:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:07:04.592210
- Title: Moving Beyond Downstream Task Accuracy for Information Retrieval
Benchmarking
- Title(参考訳): 情報検索ベンチマークにおけるダウンストリームタスク精度の超越
- Authors: Keshav Santhanam, Jon Saad-Falcon, Martin Franz, Omar Khattab, Avirup
Sil, Radu Florian, Md Arafat Sultan, Salim Roukos, Matei Zaharia, Christopher
Potts
- Abstract要約: 我々は、IRシステムの最適選択が、効率の考慮事項の選択と測定方法によってどのように異なるかを示す。
一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項がどう選択され、重み付けされるかによって、IRシステムの最良の選択がどう変化するかを示す。
- 参考スコア(独自算出の注目度): 32.64845310961208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural information retrieval (IR) systems have progressed rapidly in recent
years, in large part due to the release of publicly available benchmarking
tasks. Unfortunately, some dimensions of this progress are illusory: the
majority of the popular IR benchmarks today focus exclusively on downstream
task accuracy and thus conceal the costs incurred by systems that trade away
efficiency for quality. Latency, hardware cost, and other efficiency
considerations are paramount to the deployment of IR systems in user-facing
settings. We propose that IR benchmarks structure their evaluation methodology
to include not only metrics of accuracy, but also efficiency considerations
such as a query latency and the corresponding cost budget for a reproducible
hardware setting. For the popular IR benchmarks MS MARCO and XOR-TyDi, we show
how the best choice of IR system varies according to how these efficiency
considerations are chosen and weighed. We hope that future benchmarks will
adopt these guidelines toward more holistic IR evaluation.
- Abstract(参考訳): ニューラル・インフォメーション・検索(IR)システムは近年急速に進歩している。
今日、人気のあるirベンチマークのほとんどはダウンストリームタスクの正確性にのみ焦点を合わせており、それによって効率と品質をトレードオフするシステムが生み出すコストを隠蔽している。
レイテンシ、ハードウェアコスト、その他の効率性の考慮は、ユーザ対応設定におけるIRシステムのデプロイにおいて最重要である。
そこで,irベンチマークは,精度の指標だけでなく,クエリ待ち時間や再現可能なハードウェア設定のコスト予算といった効率上の考慮も含むように評価手法を構築した。
一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項の選択と測定方法によって、IRシステムの最良の選択がどう変化するかを示す。
将来のベンチマークでは、これらのガイドラインがより包括的なIR評価に採用されることを願っている。
関連論文リスト
- CFIRSTNET: Comprehensive Features for Static IR Drop Estimation with Neural Network [3.1761323820497656]
ニューラルネットワークフレームワークにおいて、画像ベースとネットリストベースの機能を組み合わせた包括的なソリューションを提案する。
PDNの特徴を抽出し、静的IRドロップ推定を行うために、カスタマイズ畳み込みニューラルネットワーク(CNN)を開発した。
実験結果から,ICCAD CAD Contest 2023におけるIRドロップ推定問題に関して,ベンチマークで最高の品質を得た。
論文 参考訳(メタデータ) (2025-02-13T06:47:53Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文 参考訳(メタデータ) (2024-07-09T16:07:01Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - FELARE: Fair Scheduling of Machine Learning Applications on
Heterogeneous Edge Systems [5.165692107696155]
エッジコンピューティングは、レイテンシに敏感な機械学習(ML)アプリケーションの同時実行と継続的実行を通じて、スマートIoTベースのシステムを実現する。
エネルギー制約を考慮しつつ、リアルタイムタスク完了率を向上させるリソース割当ソリューションを検討、分析する。
作業完了率の8.9%,省エネ率の12.6%はエッジシステムに大きなオーバーヘッドを伴わずに改善した。
論文 参考訳(メタデータ) (2022-05-31T19:19:40Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。