論文の概要: Ada-RS: Adaptive Rejection Sampling for Selective Thinking
- arxiv url: http://arxiv.org/abs/2602.19519v1
- Date: Mon, 23 Feb 2026 05:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.685794
- Title: Ada-RS: Adaptive Rejection Sampling for Selective Thinking
- Title(参考訳): Ada-RS:選択思考のための適応型リジェクションサンプリング
- Authors: Yirou Ge, Yixi Li, Alec Chiu, Shivani Shekhar, Zijie Pan, Avinash Thangali, Yun-Shiuan Chuang, Chaitanya Kulkarni, Uma Kona, Linsey Pang, Prakhar Mehrotra,
- Abstract要約: 大規模言語モデル(LLM)は、コストとレイテンシに敏感な設定でますますデプロイされている。
ツールを用いたLCMの選択的思考と適応型リジェクションサンプリング(Ada-RS)の導入について検討する。
Ada-RSは、適応的な長さの報酬で複数のサンプリング完了をスコアし、高い回帰候補のみを保持するために拒絶サンプリングを適用する。
- 参考スコア(独自算出の注目度): 8.760287445955045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being deployed in cost and latency-sensitive settings. While chain-of-thought improves reasoning, it can waste tokens on simple requests. We study selective thinking for tool-using LLMs and introduce Adaptive Rejection Sampling (Ada-RS), an algorithm-agnostic sample filtering framework for learning selective and efficient reasoning. For each given context, Ada-RS scores multiple sampled completions with an adaptive length-penalized reward then applies stochastic rejection sampling to retain only high-reward candidates (or preference pairs) for downstream optimization. We demonstrate how Ada-RS plugs into both preference pair (e.g. DPO) or grouped policy optimization strategies (e.g. DAPO). Using Qwen3-8B with LoRA on a synthetic tool call-oriented e-commerce benchmark, Ada-RS improves the accuracy-efficiency frontier over standard algorithms by reducing average output tokens by up to 80% and reducing thinking rate by up to 95% while maintaining or improving tool call accuracy. These results highlight that training-signal selection is a powerful lever for efficient reasoning in latency-sensitive deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コストとレイテンシに敏感な設定でますますデプロイされている。
チェーンオブ思考は推論を改善するが、単純なリクエストでトークンを無駄にする可能性がある。
ツールを用いたLCMのための選択的思考について検討し,アルゴリズムに依存しない推論学習用サンプルフィルタリングフレームワークであるAdaptive Rejection Smpling (Ada-RS)を導入する。
それぞれの文脈に対して、Ada-RSは適応長の報酬で複数のサンプル完遂をスコアし、その後確率的拒絶サンプリングを適用して、下流の最適化のために上位候補(または選好ペア)のみを保持する。
本稿では,Ada-RS が選択ペア (例えば DPO) やグループ化されたポリシー最適化戦略 (例えば DAPO) にどのように接続するかを示す。
合成ツールコール指向Eコマースベンチマークで、Qwen3-8BとLoRAを使用して、平均出力トークンを最大80%削減し、ツールコール精度を維持したり改善したりしながら、思考率を最大95%削減することで、標準アルゴリズムよりも精度・効率のフロンティアを改善する。
これらの結果は,遅延に敏感なデプロイメントにおいて,トレーニング信号の選択が効率的な推論のための強力なレバーであることを示している。
関連論文リスト
- What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - OptPO: Optimal Rollout Allocation for Test-time Policy Optimization [11.375209834858135]
テスト時のポリシー最適化により、大規模言語モデルでは、自己生成ロールアウトからのフィードバックを活用することで、分散シフトに適応することができる。
我々は、推論予算を適応的に割り当てる原則的フレームワークであるテスト時間ポリシー最適化のための最適ロールアウト割当(OptPO)を提案する。
論文 参考訳(メタデータ) (2025-12-02T15:38:52Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文 参考訳(メタデータ) (2025-05-28T09:44:27Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。