論文の概要: FlashEvaluator: Expanding Search Space with Parallel Evaluation
- arxiv url: http://arxiv.org/abs/2603.02565v1
- Date: Tue, 03 Mar 2026 03:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.624203
- Title: FlashEvaluator: Expanding Search Space with Parallel Evaluation
- Title(参考訳): FlashEvaluator: 並列評価による検索スペースの拡大
- Authors: Chao Feng, Yuanhao Pu, Chenghao Zhang, Shanqi Liu, Shuchang Liu, Xiang Li, Yongqi Liu, Lantao Hu, Kaiqiao Zhan, Han Li, Kun Gai,
- Abstract要約: 我々は,全シーケンスを1つのフォワードパスで処理し,クロスシーケンストークンの情報共有を可能にするFlashEvaluatorを提案する。
これにより、システムの効率を向上し、シーケンス間直接比較をサポートするサブ線形計算複雑性が得られる。
FlashEvaluatorは、Kuaishouのオンラインレコメンデーションシステムにデプロイされ、実質的で持続的な収益を実際に提供してきた。
- 参考スコア(独自算出の注目度): 27.839033452409428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Generator-Evaluator (G-E) framework, i.e., evaluating K sequences from a generator and selecting the top-ranked one according to evaluator scores, is a foundational paradigm in tasks such as Recommender Systems (RecSys) and Natural Language Processing (NLP). Traditional evaluators process sequences independently, suffering from two major limitations: (1) lack of explicit cross-sequence comparison, leading to suboptimal accuracy; (2) poor parallelization with linear complexity of O(K), resulting in inefficient resource utilization and negative impact on both throughput and latency. To address these challenges, we propose FlashEvaluator, which enables cross-sequence token information sharing and processes all sequences in a single forward pass. This yields sublinear computational complexity that improves the system's efficiency and supports direct inter-sequence comparisons that improve selection accuracy. The paper also provides theoretical proofs and extensive experiments on recommendation and NLP tasks, demonstrating clear advantages over conventional methods. Notably, FlashEvaluator has been deployed in online recommender system of Kuaishou, delivering substantial and sustained revenue gains in practice.
- Abstract(参考訳): Generator-Evaluator(G-E)フレームワークは、ジェネレータからK配列を評価し、評価器のスコアに従って上位の配列を選択することで、Recommender Systems(RecSys)やNatural Language Processing(NLP)といったタスクの基本パラダイムである。
2) O(K) の線形複雑性による並列化の貧弱さは、スループットとレイテンシの両方に非効率なリソース利用と負の影響をもたらす。
これらの課題に対処するために、私たちは、1つのフォワードパスで全てのシーケンスを処理・処理するクロスシーケンストークン情報共有を可能にするFlashEvaluatorを提案する。
これにより、システムの効率を向上し、選択精度を向上させる直列間比較をサポートするサブ線形計算複雑性が得られる。
また,従来の手法よりも明確な利点を示すとともに,推奨課題やNLPタスクに関する理論的証明や広範な実験も提供する。
特に、FlashEvaluatorはKuaishouのオンラインレコメンデーションシステムにデプロイされ、実質的で持続的な収益を上げている。
関連論文リスト
- $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation [16.991391135071513]
本稿では,価値誘導型サンプリングおよびツリー構造化アドバンテージ強化フレームワークであるV-STARを提案する。
V-STARは2つの相乗的成分を介して自己進化ループを形成する。まず、決定ノードを識別し、高次接頭辞を選択的に深めるために価値誘導効率復号法(VED)を開発する。
第2に、誘導木トポロジーを利用して兄弟関係の利点を計算し、決定的な分岐決定に学習信号に集中するシブリング-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:57:36Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling [20.605487145370752]
推論時間スケーリングは、テスト時間計算の増大を通じて、大きな言語モデル(LLM)の性能向上に有効であることが証明されている。
しかし、実際的な応用は、外部検証への依存や、現実的な計算制約に対する最適化の欠如によってしばしば妨げられる。
我々はDynScalingを提案し、これらの制限を2つの主要なイノベーション、すなわち並列シーケンスサンプリング戦略と帯域幅に基づく動的予算配分フレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-06-19T05:40:54Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Vector Optimization with Gaussian Process Bandits [7.049738935364297]
複数の目的を同時に考慮しなければならない学習問題は、工学、薬物設計、環境管理など、様々な分野においてしばしば発生する。
複数のブラックボックスの目的関数を扱う従来の方法は、目的の選好を取り入れ、それに応じて解空間を探索することに制限がある。
ガウス過程の帯域幅を用いてブラックボックスベクトル最適化を行う適応除去アルゴリズムであるガウス過程を用いたベクトル最適化(VOGP)を提案する。
論文 参考訳(メタデータ) (2024-12-03T14:47:46Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - OptEx: Expediting First-Order Optimization with Approximately Parallelized Iterations [12.696136981847438]
ほぼ並列化されたイテレーション (OptEx) で高速化された一階最適化を導入する。
OptExは、並列コンピューティングを活用して、その反復的ボトルネックを軽減することで、FOOの効率を高める最初のフレームワークである。
我々は、カーネル化された勾配推定の信頼性とSGDベースのOpsExの複雑さを理論的に保証する。
論文 参考訳(メタデータ) (2024-02-18T02:19:02Z) - Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection [3.913403111891027]
並列コンピューティングにおいてよく使われる「分割と征服」フレームワークを,相関に基づくクラスタリングのステップを追加して修正する。
この一見単純な修正は、広く使われているサンプル最適化R&Sプロシージャのクラスに対して、$mathcalO(p)$のサンプル複雑性の減少をもたらす。
ニューラルネットワーク探索のような大規模AIアプリケーションでは,本手法は優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。