論文の概要: Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers
- arxiv url: http://arxiv.org/abs/2507.06223v1
- Date: Tue, 08 Jul 2025 17:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.437187
- Title: Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers
- Title(参考訳): LLMリランカ用FLOPの効率効果
- Authors: Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang,
- Abstract要約: 大規模言語モデル(LLM)は,情報検索におけるタスクの再分類に応用され,高い性能を実現している。
既存の研究では、遅延、フォワードパス数、入力トークン、出力トークンなどのプロキシメトリクスを使用して、LCMベースのリランカの効率を評価する。
本稿では,LLM ベースの再ランカを対象とした Etextsuperscript2R-FLOP を提案する。
- 参考スコア(独自算出の注目度): 15.549112491482818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently been applied to reranking tasks in information retrieval, achieving strong performance. However, their high computational demands often hinder practical deployment. Existing studies evaluate the efficiency of LLM-based rerankers using proxy metrics such as latency, the number of forward passes, input tokens, and output tokens. However, these metrics depend on hardware and running-time choices (\eg parallel or not, batch size, etc), and often fail to account for model size, making it difficult to interpret and obscuring the evaluation of the efficiency-effectiveness tradeoff. To address this issue, we propose E\textsuperscript{2}R-FLOPs, for LLM-based rerankers: ranking metrics per PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for hardware-agnostic throughput. Companied with the new metrics, an interpretable FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even without running any experiments. Based on the proposed metrics, we conduct comprehensive experiments to evaluate a wide range of LLM-based rerankers with different architecture, studying the efficiency-effectiveness trade-off and bringing this issue to the attention of the research community.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,情報検索におけるタスクの再分類に応用され,高い性能を実現している。
しかし、それらの高い計算要求は、しばしば実践的な展開を妨げる。
既存の研究では、遅延、フォワードパス数、入力トークン、出力トークンなどのプロキシメトリクスを使用して、LCMベースのリランカの効率を評価する。
しかし、これらのメトリクスはハードウェアと実行時の選択(並列かどうか、バッチサイズなど)に依存しており、しばしばモデルのサイズを考慮できないため、効率効率のトレードオフの評価を解釈し、無視することは困難である。
この問題に対処するために,LLM ベースの再ランカ用 E\textsuperscript{2}R-FLOPs を提案する: 計算単位の関連性を示す PetaFLOP (RPP) と,ハードウェアに依存しないスループットを示す PetaFLOP (QPP) の関連性を示す。
新たな指標と合わせて,LLMリランカのFLOPを実験を行なわずに推定するために,解釈可能なFLOP推定器を構築した。
提案手法に基づいて,LLMをベースとした多種多様なリランカーを異なるアーキテクチャで評価し,効率効率性トレードオフについて検討し,この問題を研究コミュニティの注意を惹きつけるための総合的な実験を行った。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - LLM Performance Predictors are good initializers for Architecture Search [28.251129134057035]
我々は、下流タスクにおける特定のディープニューラルネットワークアーキテクチャの性能を推定するパフォーマンス予測器(PP)を構築した。
機械翻訳 (MT) タスクでは, PPプロンプト (LLM-PP) を用いた GPT-4 は SoTA 平均絶対誤差と, ベースライン予測器と比較してランク相関係数がわずかに低下する。
ニューラルネットワーク探索 (NAS) では, LLM-Distill-PP を用いたハイブリッド探索アルゴリズム (HS-NAS) を導入する。
論文 参考訳(メタデータ) (2023-10-25T15:34:30Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。