Fugu-MT 論文翻訳(概要): Moving Beyond Downstream Task Accuracy for Information Retrieval Benchmarking

論文の概要: Moving Beyond Downstream Task Accuracy for Information Retrieval Benchmarking

arxiv url: http://arxiv.org/abs/2212.01340v1
Date: Fri, 2 Dec 2022 17:57:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 17:07:04.592210
Title: Moving Beyond Downstream Task Accuracy for Information Retrieval Benchmarking
Title（参考訳）: 情報検索ベンチマークにおけるダウンストリームタスク精度の超越
Authors: Keshav Santhanam, Jon Saad-Falcon, Martin Franz, Omar Khattab, Avirup Sil, Radu Florian, Md Arafat Sultan, Salim Roukos, Matei Zaharia, Christopher Potts
Abstract要約: 我々は、IRシステムの最適選択が、効率の考慮事項の選択と測定方法によってどのように異なるかを示す。一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項がどう選択され、重み付けされるかによって、IRシステムの最良の選択がどう変化するかを示す。
参考スコア（独自算出の注目度）: 32.64845310961208
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural information retrieval (IR) systems have progressed rapidly in recent years, in large part due to the release of publicly available benchmarking tasks. Unfortunately, some dimensions of this progress are illusory: the majority of the popular IR benchmarks today focus exclusively on downstream task accuracy and thus conceal the costs incurred by systems that trade away efficiency for quality. Latency, hardware cost, and other efficiency considerations are paramount to the deployment of IR systems in user-facing settings. We propose that IR benchmarks structure their evaluation methodology to include not only metrics of accuracy, but also efficiency considerations such as a query latency and the corresponding cost budget for a reproducible hardware setting. For the popular IR benchmarks MS MARCO and XOR-TyDi, we show how the best choice of IR system varies according to how these efficiency considerations are chosen and weighed. We hope that future benchmarks will adopt these guidelines toward more holistic IR evaluation.
Abstract（参考訳）: ニューラル・インフォメーション・検索(IR)システムは近年急速に進歩している。今日、人気のあるirベンチマークのほとんどはダウンストリームタスクの正確性にのみ焦点を合わせており、それによって効率と品質をトレードオフするシステムが生み出すコストを隠蔽している。レイテンシ、ハードウェアコスト、その他の効率性の考慮は、ユーザ対応設定におけるIRシステムのデプロイにおいて最重要である。そこで,irベンチマークは,精度の指標だけでなく,クエリ待ち時間や再現可能なハードウェア設定のコスト予算といった効率上の考慮も含むように評価手法を構築した。一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項の選択と測定方法によって、IRシステムの最良の選択がどう変化するかを示す。将来のベンチマークでは、これらのガイドラインがより包括的なIR評価に採用されることを願っている。

関連論文リスト

Efficient Egocentric Action Recognition with Multimodal Data [19.70664397400233]
入力モードの異なるサンプリング周波数が自我中心の動作認識性能とCPU使用量に与える影響を解析する。以上の結果から,RGBフレームのサンプリングレートの低減は,高周波数の3Dハンドポーズ入力を補完することで,CPU要求を大幅に低減しつつ高い精度を維持できることが判明した。このことは、XRデバイス上で効率的なリアルタイムEARを実現するための実行可能なアプローチとして、マルチモーダル入力戦略の可能性を強調している。
論文参考訳（メタデータ） (2025-06-02T15:04:23Z)
Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs [48.653022530291494]
大規模言語モデル(LLM)は、様々な推論や生成タスクで顕著なパフォーマンスを示している。この研究は、リアルタイム意思決定タスクにおいて、このレイテンシ品質のトレードオフに関する最初の体系的な研究を示す。実時間要求に基づいてモデルサイズと量子化レベルを動的に選択する適応型フレームワークFPXを提案する。
論文参考訳（メタデータ） (2025-05-26T04:03:48Z)
JIR-Arena: The First Benchmark Dataset for Just-in-time Information Recommendation [29.732827510828496]
ジャスト・イン・タイム情報推薦(ジャスト・イン・タイム・イン・タイム・インフォメーション・レコメンデーション、英: Just-in-time Information Recommendation、JIR)は、ユーザが必要な時に最も関連性の高い情報を提供するように設計されたサービスである。本稿では,JIRタスクと関連する評価指標の数学的定義について述べる。 JIR-Arenaは多種多様な情報要求集約シナリオを特徴とするマルチモーダルベンチマークデータセットである。
論文参考訳（メタデータ） (2025-05-19T04:49:47Z)
CFIRSTNET: Comprehensive Features for Static IR Drop Estimation with Neural Network [3.1761323820497656]
ニューラルネットワークフレームワークにおいて、画像ベースとネットリストベースの機能を組み合わせた包括的なソリューションを提案する。 PDNの特徴を抽出し、静的IRドロップ推定を行うために、カスタマイズ畳み込みニューラルネットワーク(CNN)を開発した。実験結果から,ICCAD CAD Contest 2023におけるIRドロップ推定問題に関して,ベンチマークで最高の品質を得た。
論文参考訳（メタデータ） (2025-02-13T06:47:53Z)
The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文参考訳（メタデータ） (2025-01-04T03:26:46Z)
Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文参考訳（メタデータ） (2024-11-07T22:36:19Z)
Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文参考訳（メタデータ） (2024-07-09T16:07:01Z)
A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文参考訳（メタデータ） (2024-06-25T07:45:00Z)
RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。 RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文参考訳（メタデータ） (2024-03-14T02:26:31Z)
EASRec: Elastic Architecture Search for Efficient Long-term Sequential Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。 EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文参考訳（メタデータ） (2024-02-01T07:22:52Z)
Building Interpretable and Reliable Open Information Retriever for New Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-09T07:47:17Z)
tieval: An Evaluation Framework for Temporal Information Extraction Systems [2.3035364984111495]
過去20年間、時間的情報抽出は大きな関心を集めてきた。大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。 tievalはPythonライブラリで、異なるコーパスをインポートするための簡潔なインターフェースを提供し、システム評価を容易にする。
論文参考訳（メタデータ） (2023-01-11T18:55:22Z)
FELARE: Fair Scheduling of Machine Learning Applications on Heterogeneous Edge Systems [5.165692107696155]
エッジコンピューティングは、レイテンシに敏感な機械学習(ML)アプリケーションの同時実行と継続的実行を通じて、スマートIoTベースのシステムを実現する。エネルギー制約を考慮しつつ、リアルタイムタスク完了率を向上させるリソース割当ソリューションを検討、分析する。作業完了率の8.9%,省エネ率の12.6%はエッジシステムに大きなオーバーヘッドを伴わずに改善した。
論文参考訳（メタデータ） (2022-05-31T19:19:40Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文参考訳（メタデータ） (2021-05-20T17:52:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。