Fugu-MT 論文翻訳(概要): Comparative Analysis of Lion and AdamW Optimizers for Cross-Encoder Reranking with MiniLM, GTE, and ModernBERT

論文の概要: Comparative Analysis of Lion and AdamW Optimizers for Cross-Encoder Reranking with MiniLM, GTE, and ModernBERT

arxiv url: http://arxiv.org/abs/2506.18297v1
Date: Mon, 23 Jun 2025 05:30:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.864691
Title: Comparative Analysis of Lion and AdamW Optimizers for Cross-Encoder Reranking with MiniLM, GTE, and ModernBERT
Title（参考訳）: MiniLM、GTE、ModernBERTを併用したクロスエンコーダにおけるLionとAdamW最適化の比較解析
Authors: Shahil Kumar, Manu Pande, Anay Yatin Damle,
Abstract要約: クロスエンコーダのリランカは、クエリ-ドキュメントペアの深い分析により、リランクに強い効果を示している。本稿では,AdamWの代替品であるライオンが,クロスエンコーダリランカーの微調整中に与える影響について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern information retrieval systems often employ a two-stage pipeline: an efficient initial retrieval stage followed by a computationally intensive reranking stage. Cross-encoders have shown strong effectiveness for reranking due to their deep analysis of query-document pairs. This paper studies the impact of the Lion optimizer, a recent alternative to AdamW, during fine-tuning of cross-encoder rerankers. We fine-tune three transformer models-MiniLM, GTE, and ModernBERT-on the MS MARCO passage ranking dataset using both optimizers. GTE and ModernBERT support extended context lengths (up to 8192 tokens). We evaluate effectiveness using TREC 2019 Deep Learning Track and MS MARCO dev set (MRR@10). Experiments, run on the Modal cloud platform, reveal that ModernBERT with Lion achieves the best NDCG@10 (0.7225) and MAP (0.5121) on TREC DL 2019, while MiniLM with Lion ties ModernBERT for MRR@10 (0.5988) on MS MARCO dev. Lion also provides superior GPU efficiency, improving utilization by 2.67% to 10.33% across models. We analyze performance trends using standard IR metrics and discuss the optimizer's impact on training dynamics across architectures.
Abstract（参考訳）: 現代の情報検索システムでは、2段階のパイプラインを用いることが多い。クロスエンコーダは、クエリ-ドキュメントペアの深い分析により、再ランク付けに強い効果を示している。本稿では, クロスエンコーダリランカの微調整におけるAdamWの代替となるライオンオプティマイザの影響について検討する。両オプティマイザを用いて,MS MARCOパスランキングデータセット上で,MiniLM,GTE,ModernBERTの3つのトランスフォーマーモデルを微調整する。 GTEとModernBERTは拡張コンテキスト長(最大8192トークン)をサポートする。 TREC 2019 Deep Learning Track と MS MARCO dev set (MRR@10。 Modalクラウドプラットフォームで動作する実験によると、ModernBERT with LionはTREC DL 2019で最高のNDCG@10(0.7225)とMAP(0.5121)を達成し、MiniLM with Lion ties ModernBERT for MRR@10(0.5988)をMS MARCO開発で達成している。また、LionはGPU効率も優れ、モデル全体の2.67%から10.33%に改善している。我々は、標準IRメトリクスを使用してパフォーマンストレンドを分析し、アーキテクチャ全体にわたるトレーニングダイナミクスに対するオプティマイザの影響について議論する。

関連論文リスト

Pre-Training LLMs on a budget: A comparison of three optimizers [2.8090964770805207]
我々は、デファクト標準のAdamW、より単純なLion、そして2階のSophiaの3つの主要な変種を比較した。より良い一般化のために、私たちは2つの異なるベースアーキテクチャでトレーニングし、単一と複数エポックのアプローチを使用します。
論文参考訳（メタデータ） (2025-07-11T10:29:04Z)
Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。 SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文参考訳（メタデータ） (2025-02-24T22:35:53Z)
Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文参考訳（メタデータ） (2025-01-22T02:48:14Z)
Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文参考訳（メタデータ） (2025-01-15T05:00:03Z)
Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning [15.776175440446414]
本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。 Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。 Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
論文参考訳（メタデータ） (2024-11-04T18:54:39Z)
Rank-DistiLLM: Closing the Effectiveness Gap Between Cross-Encoders and LLMs for Passage Re-Ranking [79.35822270532948]
大規模言語モデル (LLM) から蒸留したクロスエンコーダは、手動でラベル付けされたデータに微調整されたクロスエンコーダよりも効果的であることが多い。このギャップを埋めるために、新しいデータセットである Rank-DistiLLM を作成します。 Rank-DistiLLMでトレーニングされたクロスエンコーダは、最大173倍高速で24倍のメモリ効率を実現している。
論文参考訳（メタデータ） (2024-05-13T16:51:53Z)
Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-03-29T15:07:21Z)
End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames [55.72994484532856]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。エンド・ツー・エンドトレーニングのメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文参考訳（メタデータ） (2023-11-28T21:31:04Z)
Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。 LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文参考訳（メタデータ） (2023-02-13T20:27:30Z)
Simplex Autoencoders [1.3960152426268768]
本稿では,オートエンコーダの潜伏空間を単純な表現としてモデル化し,混合モデルの成分数を決定する新しい手法を提案する。合成データセットに対する我々のアプローチを評価し,その性能を3つのベンチマークデータセットで実証する。
論文参考訳（メタデータ） (2023-01-16T15:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。