論文の概要: Are Optimal Algorithms Still Optimal? Rethinking Sorting in LLM-Based Pairwise Ranking with Batching and Caching
- arxiv url: http://arxiv.org/abs/2505.24643v1
- Date: Fri, 30 May 2025 14:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.003623
- Title: Are Optimal Algorithms Still Optimal? Rethinking Sorting in LLM-Based Pairwise Ranking with Batching and Caching
- Title(参考訳): 最適アルゴリズムは依然として最適か? バッチとキャッシュによるLLMによるペアワイドランキングにおけるソーティングの再考
- Authors: Juan Wisznia, Cecilia Bolaños, Juan Tollo, Giovanni Marraffini, Agustín Gianolini, Noe Hsueh, Luciano Del Corro,
- Abstract要約: ペアワイズランキング(PRP)におけるアルゴリズム解析のための新しいフレームワークを提案する。
比較数に基づく古典的指標は、伝統的に効率を測るために用いられてきたが、我々の分析は、高価な推測がこれらの予測を覆すことを示した。
- 参考スコア(独自算出の注目度): 0.32248482136498424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework for analyzing sorting algorithms in pairwise ranking prompting (PRP), re-centering the cost model around LLM inferences rather than traditional pairwise comparisons. While classical metrics based on comparison counts have traditionally been used to gauge efficiency, our analysis reveals that expensive LLM inferences overturn these predictions; accordingly, our framework encourages strategies such as batching and caching to mitigate inference costs. We show that algorithms optimal in the classical setting can lose efficiency when LLM inferences dominate the cost under certain optimizations.
- Abstract(参考訳): 本稿では、従来のペアワイズ比較ではなく、LLM推論のコストモデルを再中心化して、ペアワイズランキングプロンプト(PRP)におけるソートアルゴリズムを解析するための新しいフレームワークを提案する。
比較数に基づく古典的メトリクスは従来,効率を測るために用いられてきたが,我々の分析では,高価なLLM推論がこれらの予測を覆し,バッチ処理やキャッシュといった戦略を奨励し,推論コストを軽減している。
LLM推論が特定の最適化の下でコストを支配下に置くと、古典的な設定で最適なアルゴリズムが効率を損なうことが示される。
関連論文リスト
- Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models [0.36326779753373206]
Zeroth-Order (ZO) 最適化では、勾配の代わりに関数評価を使用し、メモリ使用量を削減しているが、高次元モデルでは緩やかな収束に悩まされている。
ZOPrOは、大規模言語モデルにおける優先度最適化のために設計された新しいZOアルゴリズムである。
本手法は,一階法に匹敵する収束時間を実現しつつ,報酬信号の連続的な向上を実証する。
論文 参考訳(メタデータ) (2025-03-05T12:49:48Z) - Meta-Learning Objectives for Preference Optimization [39.15940594751445]
より単純なベンチマークにおいて、選好最適化アルゴリズムの有効性についての洞察を得ることが可能であることを示す。
我々はミラー優先最適化(MPO)と呼ばれるミラー降下に基づく新しいPOアルゴリズム群を提案する。
論文 参考訳(メタデータ) (2024-11-10T19:11:48Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Data-Driven Performance Guarantees for Classical and Learned Optimizers [2.0403774954994858]
連続最適化アルゴリズムの性能を解析するためのデータ駆動型手法を提案する。
パラメトリック最適化問題のファミリーを解くために古典と学習を研究した。
論文 参考訳(メタデータ) (2024-04-22T02:06:35Z) - Optimizing with Low Budgets: a Comparison on the Black-box Optimization
Benchmarking Suite and OpenAI Gym [2.511157007295545]
Black-box Optimization (BO)アルゴリズムは機械学習(ML)で人気がある
MLのためのBBOツールと、より古典的なCOCOの比較を行う。
BBOコミュニティのアルゴリズムの中には、MLタスクで驚くほどうまく機能するものもある。
論文 参考訳(メタデータ) (2023-09-29T18:33:10Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。