論文の概要: Making, not Taking, the Best of N
- arxiv url: http://arxiv.org/abs/2510.00931v1
- Date: Wed, 01 Oct 2025 14:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.602528
- Title: Making, not Taking, the Best of N
- Title(参考訳): テイキングではなく、Nのベストを作れ。
- Authors: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer,
- Abstract要約: Fusion-of-N (FusioN) は、一般LLM判定器を用いて各試料の最も情報性の高い要素を1つの最終回答に合成する手法である。
We compare FusioN to BoN in two settings, (i) test-time scaling, where we sample and aggregate from a single model at test-time synthetic data generation, where we fuse a pool of various teachers to improve a student model。
ベンチ全体では、FusioNは、テスト時間スケーリングと合成データ生成による下流ゲインの両方において、汎用性と堅牢性を示すBoNを一貫して上回っている。
- 参考スコア(独自算出の注目度): 14.756612086234762
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Obtaining high-quality generations in modern LLMs has largely been framed as a selection problem: identifying a single winning generation from a diverse pool of N samples, the Best-of-N (BoN). Yet, this approach is inherently zero-sum, discarding diverse and potentially useful information from the pool. Instead, we explore a collaborative setup, where all candidates can potentially contribute to the final winning generation. To this end, we propose Fusion-of-N (FusioN): a method that uses a general LLM judge to synthesize the most informative elements of each sample into a single final answer. We compare FusioN to BoN in two settings, (i) test-time scaling, where we sample and aggregate from a single model at test-time (ii) synthetic data generation, where we fuse samples from a pool of diverse teachers to improve a student model. We extensively benchmark both setups across 11 languages, 3 diverse tasks and varying model scales. Across the bench, FusioN consistently outperforms BoN showing versatility and robustness both in test-time scaling and in downstream gains from synthetic data generation. We also perform extensive analysis on FusioN, where it shows surprising strengths and robustness under challenging settings. These results show that we should shift how we think about evaluating and utilizing LLM generations from a monolithic measure of quality, to embracing their polylithic nature. This shift allows us to integrate diverse strengths, unlock latent potential, and achieve improvements that were previously inaccessible through selection alone.
- Abstract(参考訳): 現代のLLMで高品質な世代を獲得することは、選択問題として、多種多様なNサンプルのプールから1つの勝利世代を識別するBest-of-N (BoN) という枠組みが広く採用されている。
しかし、このアプローチは本質的にゼロサムであり、多様な有用な情報をプールから捨てる。
代わりに、すべての候補が最終的な勝者生成に貢献できるような、協調的なセットアップを検討します。
この目的のために,一般LLM判定器を用いて各試料の最も情報性の高い要素を1つの最終回答に合成するFusion-of-N(FusioN)を提案する。
FusioNとBoNを2つの設定で比較します。
(i)テストタイムのスケーリングで、1つのモデルをテスト時にサンプリングし、集約する
二 多様な教師のプールからサンプルを融合させて学生モデルを改善する合成データ生成。
11の言語、3つのタスク、さまざまなモデルスケールで、両方のセットアップを広範囲にベンチマークします。
ベンチ全体では、FusioNは、テスト時間スケーリングと合成データ生成による下流ゲインの両方において、汎用性と堅牢性を示すBoNを一貫して上回っている。
また、FusioNを広範囲に分析し、挑戦的な設定下で驚くほどの強度と堅牢性を示す。
これらの結果は,LLM世代をモノリシックな品質尺度からポリリシックな性質を受け入れるための考え方を転換すべきであることを示している。
このシフトにより、さまざまな強みを統合し、潜在能力を解放し、選択だけでこれまでアクセスできなかった改善を達成できます。
関連論文リスト
- Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting [64.45587649141842]
時系列予測は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
1つのモデルは、異なるテストサンプルで一貫して他よりも優れていますが、(ii) それぞれのモデルは特定のケースで優れています。
異種モデルのサンプルレベル適応融合による時系列予測のためのフレームワークであるTimeFuseを紹介する。
論文 参考訳(メタデータ) (2025-05-24T00:45:07Z) - ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities [30.123976500620834]
従来の固定テストセットは、ファンデーションモデルのオープンな機能を評価するのに不足しています。
ONEBenchは、個々の評価データセットを統一し、拡張し続けるサンプルプールに統合する新しいテストパラダイムである。
ONEBenchは、テストセットにまたがってサンプルを集約することにより、オリジナルのテストセットでカバーされたもの以上の多様な機能の評価を可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:37:14Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Hit the Sweet Spot! Span-Level Ensemble for Large Language Models [8.34562564266839]
本研究では,リアルタイム調整の必要性と正確なアンサンブル決定に必要な情報とを効果的にバランスさせるスパンレベルアンサンブル手法であるSweetSpanを提案する。
まず、各候補モデルを独立して共有プレフィックスに基づいて候補スパンを生成する。
第二に、難易度スコアを計算して、候補モデル間の相互評価を容易にし、不誠実なスコアを抽出してロバストなスパン選択を実現する。
論文 参考訳(メタデータ) (2024-09-27T09:41:29Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Selecting Better Samples from Pre-trained LLMs: A Case Study on Question
Generation [22.294762359009052]
近年,Large Language Models (LLMs) は,自然言語生成に顕著な進歩を見せている。
LLM生成候補の集合から高品質な質問を選択するための2つのプロンプトベースアプローチを提案する。
提案手法は,1)ブラックボックス(修正不可能な)質問生成モデル,2)人間による注釈付き参照へのアクセスの欠如という制約の下で機能する。
論文 参考訳(メタデータ) (2022-09-22T13:33:48Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。