論文の概要: Moving Beyond Downstream Task Accuracy for Information Retrieval
Benchmarking
- arxiv url: http://arxiv.org/abs/2212.01340v1
- Date: Fri, 2 Dec 2022 17:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:07:04.592210
- Title: Moving Beyond Downstream Task Accuracy for Information Retrieval
Benchmarking
- Title(参考訳): 情報検索ベンチマークにおけるダウンストリームタスク精度の超越
- Authors: Keshav Santhanam, Jon Saad-Falcon, Martin Franz, Omar Khattab, Avirup
Sil, Radu Florian, Md Arafat Sultan, Salim Roukos, Matei Zaharia, Christopher
Potts
- Abstract要約: 我々は、IRシステムの最適選択が、効率の考慮事項の選択と測定方法によってどのように異なるかを示す。
一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項がどう選択され、重み付けされるかによって、IRシステムの最良の選択がどう変化するかを示す。
- 参考スコア(独自算出の注目度): 32.64845310961208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural information retrieval (IR) systems have progressed rapidly in recent
years, in large part due to the release of publicly available benchmarking
tasks. Unfortunately, some dimensions of this progress are illusory: the
majority of the popular IR benchmarks today focus exclusively on downstream
task accuracy and thus conceal the costs incurred by systems that trade away
efficiency for quality. Latency, hardware cost, and other efficiency
considerations are paramount to the deployment of IR systems in user-facing
settings. We propose that IR benchmarks structure their evaluation methodology
to include not only metrics of accuracy, but also efficiency considerations
such as a query latency and the corresponding cost budget for a reproducible
hardware setting. For the popular IR benchmarks MS MARCO and XOR-TyDi, we show
how the best choice of IR system varies according to how these efficiency
considerations are chosen and weighed. We hope that future benchmarks will
adopt these guidelines toward more holistic IR evaluation.
- Abstract(参考訳): ニューラル・インフォメーション・検索(IR)システムは近年急速に進歩している。
今日、人気のあるirベンチマークのほとんどはダウンストリームタスクの正確性にのみ焦点を合わせており、それによって効率と品質をトレードオフするシステムが生み出すコストを隠蔽している。
レイテンシ、ハードウェアコスト、その他の効率性の考慮は、ユーザ対応設定におけるIRシステムのデプロイにおいて最重要である。
そこで,irベンチマークは,精度の指標だけでなく,クエリ待ち時間や再現可能なハードウェア設定のコスト予算といった効率上の考慮も含むように評価手法を構築した。
一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項の選択と測定方法によって、IRシステムの最良の選択がどう変化するかを示す。
将来のベンチマークでは、これらのガイドラインがより包括的なIR評価に採用されることを願っている。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文 参考訳(メタデータ) (2024-07-09T16:07:01Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - tieval: An Evaluation Framework for Temporal Information Extraction
Systems [2.3035364984111495]
過去20年間、時間的情報抽出は大きな関心を集めてきた。
大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。
tievalはPythonライブラリで、異なるコーパスをインポートするための簡潔なインターフェースを提供し、システム評価を容易にする。
論文 参考訳(メタデータ) (2023-01-11T18:55:22Z) - FELARE: Fair Scheduling of Machine Learning Applications on
Heterogeneous Edge Systems [5.165692107696155]
エッジコンピューティングは、レイテンシに敏感な機械学習(ML)アプリケーションの同時実行と継続的実行を通じて、スマートIoTベースのシステムを実現する。
エネルギー制約を考慮しつつ、リアルタイムタスク完了率を向上させるリソース割当ソリューションを検討、分析する。
作業完了率の8.9%,省エネ率の12.6%はエッジシステムに大きなオーバーヘッドを伴わずに改善した。
論文 参考訳(メタデータ) (2022-05-31T19:19:40Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。