論文の概要: Adaptive Blockwise Search: Inference-Time Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.23334v1
- Date: Mon, 27 Oct 2025 13:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.561514
- Title: Adaptive Blockwise Search: Inference-Time Alignment for Large Language Models
- Title(参考訳): Adaptive Blockwise Search: 大規模言語モデルの推論時間アライメント
- Authors: Mohammad Atif Quamar, Mohammad Areeb, Nishant Sharma, Ananth Shreekumar, Jonathan Rosenthal, Muslum Ozgur Ozmen, Mikhail Kuznetsov, Z. Berkay Celik,
- Abstract要約: インタイム法は微調整の柔軟な代替手段を提供するが、その一様計算の努力は、しばしば準最適アライメントをもたらす。
本稿では,ブロックワイズ検索の新たな戦略であるAdaSearchを紹介する。
サンプリングスケジュールを用いて、固定された計算予算を適応的に割り当て、クリティカルトークンに探索努力を集中させる。
- 参考スコア(独自算出の注目度): 13.368340836611075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM alignment remains a critical challenge. Inference-time methods provide a flexible alternative to fine-tuning, but their uniform computational effort often yields suboptimal alignment. We hypothesize that for many alignment tasks, the initial tokens of a response are disproportionately more critical. To leverage this principle, we introduce AdaSearch, a novel blockwise search strategy. It adaptively allocates a fixed computational budget using a sampling schedule, focusing search effort on these critical tokens. We apply AdaSearch to sequential decoding and introduce its tree-search counterpart, AdaBeam. Our comprehensive evaluation across eight LLMs demonstrates that AdaSearch outperforms strong Best-of-N and fine-tuning baselines. Specifically, win-rates improve by over 10% for harmlessness generation, controlled sentiment generation, and for mathematical reasoning tasks relative to Best-of-N.
- Abstract(参考訳): LLMアライメントは依然として重要な課題である。
推論時間法は微調整の柔軟な代替手段を提供するが、その一様計算の努力は、しばしば準最適アライメントをもたらす。
多くのアライメントタスクにおいて、応答の初期トークンは不均等に重要である、という仮説を立てる。
この原理を活用するために,ブロックワイズ検索の新たな戦略であるAdaSearchを紹介した。
サンプリングスケジュールを用いて、固定された計算予算を適応的に割り当て、これらのクリティカルトークンに探索努力を集中させる。
AdaSearchをシーケンシャルなデコードに適用し、ツリー検索の相手であるAdaBeamを紹介します。
AdaSearchがBest-of-Nや微調整のベースラインよりも優れていることを示す。
具体的には、無害感の生成、制御された感情生成、およびBest-of-Nに対する数学的推論タスクにおいて、勝率を10%以上改善する。
関連論文リスト
- READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - LLM-First Search: Self-Guided Exploration of the Solution Space [29.780554400938335]
大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。
我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
論文 参考訳(メタデータ) (2025-06-05T16:27:49Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization [52.80408805368928]
本稿では,バッチ取得のための新しいグリーディ型サブセット選択アルゴリズムを提案する。
赤蛍光タンパク質に関する実験により,提案手法は1.69倍少ないクエリでベースライン性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-06-21T05:57:08Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Stop Relying on No-Choice and Do not Repeat the Moves: Optimal,
Efficient and Practical Algorithms for Assortment Optimization [38.57171985309975]
本研究では,emphPlackett Luce (PL) を用いたコンソーシアム選択問題に対する効率的なアルゴリズムを開発した。
提案手法は,既存の手法の限界を無視し,実用的かつ確実に最適である。
論文 参考訳(メタデータ) (2024-02-29T07:17:04Z) - Don't Search for a Search Method -- Simple Heuristics Suffice for
Adversarial Text Attacks [11.196974000738729]
ゼロオーダーの最適化に基づく攻撃にインスパイアされたアルゴリズムを実装し、TextAttackフレームワークのベンチマーク結果と比較する。
驚いたことに、最適化に基づく手法は制約された設定においていかなる改善をもたらさない。
これらの結果から、現在のTextAttackベンチマークタスクは簡単すぎて制約が厳しすぎて、ブラックボックスの敵対的テキスト攻撃に関する有意義な研究が妨げられていると結論付けている。
論文 参考訳(メタデータ) (2021-09-16T12:22:17Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。