論文の概要: Comparative Analysis of Lion and AdamW Optimizers for Cross-Encoder Reranking with MiniLM, GTE, and ModernBERT
- arxiv url: http://arxiv.org/abs/2506.18297v1
- Date: Mon, 23 Jun 2025 05:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.864691
- Title: Comparative Analysis of Lion and AdamW Optimizers for Cross-Encoder Reranking with MiniLM, GTE, and ModernBERT
- Title(参考訳): MiniLM、GTE、ModernBERTを併用したクロスエンコーダにおけるLionとAdamW最適化の比較解析
- Authors: Shahil Kumar, Manu Pande, Anay Yatin Damle,
- Abstract要約: クロスエンコーダのリランカは、クエリ-ドキュメントペアの深い分析により、リランクに強い効果を示している。
本稿では,AdamWの代替品であるライオンが,クロスエンコーダリランカーの微調整中に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern information retrieval systems often employ a two-stage pipeline: an efficient initial retrieval stage followed by a computationally intensive reranking stage. Cross-encoders have shown strong effectiveness for reranking due to their deep analysis of query-document pairs. This paper studies the impact of the Lion optimizer, a recent alternative to AdamW, during fine-tuning of cross-encoder rerankers. We fine-tune three transformer models-MiniLM, GTE, and ModernBERT-on the MS MARCO passage ranking dataset using both optimizers. GTE and ModernBERT support extended context lengths (up to 8192 tokens). We evaluate effectiveness using TREC 2019 Deep Learning Track and MS MARCO dev set (MRR@10). Experiments, run on the Modal cloud platform, reveal that ModernBERT with Lion achieves the best NDCG@10 (0.7225) and MAP (0.5121) on TREC DL 2019, while MiniLM with Lion ties ModernBERT for MRR@10 (0.5988) on MS MARCO dev. Lion also provides superior GPU efficiency, improving utilization by 2.67% to 10.33% across models. We analyze performance trends using standard IR metrics and discuss the optimizer's impact on training dynamics across architectures.
- Abstract(参考訳): 現代の情報検索システムでは、2段階のパイプラインを用いることが多い。
クロスエンコーダは、クエリ-ドキュメントペアの深い分析により、再ランク付けに強い効果を示している。
本稿では, クロスエンコーダリランカの微調整におけるAdamWの代替となるライオンオプティマイザの影響について検討する。
両オプティマイザを用いて,MS MARCOパスランキングデータセット上で,MiniLM,GTE,ModernBERTの3つのトランスフォーマーモデルを微調整する。
GTEとModernBERTは拡張コンテキスト長(最大8192トークン)をサポートする。
TREC 2019 Deep Learning Track と MS MARCO dev set (MRR@10。
Modalクラウドプラットフォームで動作する実験によると、ModernBERT with LionはTREC DL 2019で最高のNDCG@10(0.7225)とMAP(0.5121)を達成し、MiniLM with Lion ties ModernBERT for MRR@10(0.5988)をMS MARCO開発で達成している。
また、LionはGPU効率も優れ、モデル全体の2.67%から10.33%に改善している。
我々は、標準IRメトリクスを使用してパフォーマンストレンドを分析し、アーキテクチャ全体にわたるトレーニングダイナミクスに対するオプティマイザの影響について議論する。
関連論文リスト
- Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。
我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文 参考訳(メタデータ) (2025-01-15T05:00:03Z) - Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning [15.776175440446414]
本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。
Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。
Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
論文 参考訳(メタデータ) (2024-11-04T18:54:39Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。
提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。
LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-02-13T20:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。