Fugu-MT 論文翻訳(概要): Sample, Don't Search: Rethinking Test-Time Alignment for Language Models

論文の概要: Sample, Don't Search: Rethinking Test-Time Alignment for Language Models

arxiv url: http://arxiv.org/abs/2504.03790v1
Date: Fri, 04 Apr 2025 00:41:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 08:22:45.203678
Title: Sample, Don't Search: Rethinking Test-Time Alignment for Language Models
Title（参考訳）: サンプル, 検索しない: 言語モデルのテスト時間アライメントを再考する
Authors: Gonçalo Faria, Noah A. Smith,
Abstract要約: 新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Increasing test-time computation has emerged as a promising direction for improving language model performance, particularly in scenarios where model finetuning is impractical or impossible due to computational constraints or private model weights. However, existing test-time search methods using a reward model (RM) often degrade in quality as compute scales, due to the over-optimization of what are inherently imperfect reward proxies. We introduce QAlign, a new test-time alignment approach. As we scale test-time compute, QAlign converges to sampling from the optimal aligned distribution for each individual prompt. By adopting recent advances in Markov chain Monte Carlo for text generation, our method enables better-aligned outputs without modifying the underlying model or even requiring logit access. We demonstrate the effectiveness of QAlign on mathematical reasoning benchmarks (GSM8K and GSM-Symbolic) using a task-specific RM, showing consistent improvements over existing test-time compute methods like best-of-n and majority voting. Furthermore, when applied with more realistic RMs trained on the Tulu 3 preference dataset, QAlign outperforms direct preference optimization (DPO), best-of-n, majority voting, and weighted majority voting on a diverse range of datasets (GSM8K, MATH500, IFEval, MMLU-Redux, and TruthfulQA). A practical solution to aligning language models at test time using additional computation without degradation, our approach expands the limits of the capability that can be obtained from off-the-shelf language models without further training.
Abstract（参考訳）: テスト時間計算の増大は、特に計算制約やプライベートモデル重みによるモデル微調整が現実的または不可能なシナリオにおいて、言語モデルのパフォーマンスを改善するための有望な方向として現れている。しかしながら、報酬モデル(RM)を用いた既存のテスト時間探索法は、本質的に不完全な報酬プロキシの過度な最適化のため、しばしば計算スケールとして品質が低下する。新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。テキスト生成におけるマルコフ連鎖モンテカルロの最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。本稿では,タスク固有RMを用いた数学推論ベンチマーク(GSM8KとGSM-Symbolic)におけるQAlignの有効性を示す。さらに、Tulu 3の選好データセットでトレーニングされたより現実的なRMを適用すると、QAlignは、さまざまなデータセット(GSM8K、MATH500、IFEval、MMLU-Redux、TruthfulQA)での直接選好最適化(DPO)、ベスト・オブ・n、多数決投票、重み付けされた多数決投票(GSM8K、MATH500、IFEval、MMLU-Redux、TruthfulQA)よりも優れています。劣化を伴わない追加計算を用いて,テスト時に言語モデルを整列させる実用的な手法として,本手法では,既製の言語モデルから得られる能力の限界を,それ以上の訓練をすることなく拡張する。

関連論文リスト

What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文参考訳（メタデータ） (2026-02-01T07:30:22Z)
Reasoning Planning for Language Models [23.519351730129426]
本稿では,コントラスト学習フレームワークであるEPICを紹介する。 EPICは、モデル推論能力とクエリメソッド互換性の両方をキャプチャする共有表現空間を学習する。多様な数学的推論タスクの実験は、EPICが常に最適な推論方法を選択することを示している。
論文参考訳（メタデータ） (2025-11-01T11:51:53Z)
LATTS: Locally Adaptive Test-Time Scaling [45.37857725357838]
生成ステップ間で変数計算を割り当てるために,emphLocally Adaptive Test-Time Scaling (LATTS)を提案する。 LATTSは検証者ベースの受け入れ基準を用いて、生成プロセスを再サンプリング、バックトラック、再起動、または停止するかを決定する。実験結果から, LATTS は標準検証手法と比較して, 高い精度で計算トレードオフを達成できることがわかった。
論文参考訳（メタデータ） (2025-09-16T17:51:33Z)
$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。典型的資源の5～15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-16T09:06:17Z)
Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文参考訳（メタデータ） (2024-05-24T16:20:04Z)
Towards Reliable AI Model Deployments: Multiple Input Mixup for Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文参考訳（メタデータ） (2023-12-24T15:31:51Z)
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文参考訳（メタデータ） (2023-11-02T17:59:32Z)
Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文参考訳（メタデータ） (2022-03-14T20:13:21Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。