Fugu-MT 論文翻訳(概要): Ada-RS: Adaptive Rejection Sampling for Selective Thinking

論文の概要: Ada-RS: Adaptive Rejection Sampling for Selective Thinking

arxiv url: http://arxiv.org/abs/2602.19519v1
Date: Mon, 23 Feb 2026 05:20:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.685794
Title: Ada-RS: Adaptive Rejection Sampling for Selective Thinking
Title（参考訳）: Ada-RS:選択思考のための適応型リジェクションサンプリング
Authors: Yirou Ge, Yixi Li, Alec Chiu, Shivani Shekhar, Zijie Pan, Avinash Thangali, Yun-Shiuan Chuang, Chaitanya Kulkarni, Uma Kona, Linsey Pang, Prakhar Mehrotra,
Abstract要約: 大規模言語モデル(LLM)は、コストとレイテンシに敏感な設定でますますデプロイされている。ツールを用いたLCMの選択的思考と適応型リジェクションサンプリング(Ada-RS)の導入について検討する。 Ada-RSは、適応的な長さの報酬で複数のサンプリング完了をスコアし、高い回帰候補のみを保持するために拒絶サンプリングを適用する。
参考スコア（独自算出の注目度）: 8.760287445955045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly being deployed in cost and latency-sensitive settings. While chain-of-thought improves reasoning, it can waste tokens on simple requests. We study selective thinking for tool-using LLMs and introduce Adaptive Rejection Sampling (Ada-RS), an algorithm-agnostic sample filtering framework for learning selective and efficient reasoning. For each given context, Ada-RS scores multiple sampled completions with an adaptive length-penalized reward then applies stochastic rejection sampling to retain only high-reward candidates (or preference pairs) for downstream optimization. We demonstrate how Ada-RS plugs into both preference pair (e.g. DPO) or grouped policy optimization strategies (e.g. DAPO). Using Qwen3-8B with LoRA on a synthetic tool call-oriented e-commerce benchmark, Ada-RS improves the accuracy-efficiency frontier over standard algorithms by reducing average output tokens by up to 80% and reducing thinking rate by up to 95% while maintaining or improving tool call accuracy. These results highlight that training-signal selection is a powerful lever for efficient reasoning in latency-sensitive deployments.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コストとレイテンシに敏感な設定でますますデプロイされている。チェーンオブ思考は推論を改善するが、単純なリクエストでトークンを無駄にする可能性がある。ツールを用いたLCMのための選択的思考について検討し,アルゴリズムに依存しない推論学習用サンプルフィルタリングフレームワークであるAdaptive Rejection Smpling (Ada-RS)を導入する。それぞれの文脈に対して、Ada-RSは適応長の報酬で複数のサンプル完遂をスコアし、その後確率的拒絶サンプリングを適用して、下流の最適化のために上位候補(または選好ペア)のみを保持する。本稿では,Ada-RS が選択ペア (例えば DPO) やグループ化されたポリシー最適化戦略 (例えば DAPO) にどのように接続するかを示す。合成ツールコール指向Eコマースベンチマークで、Qwen3-8BとLoRAを使用して、平均出力トークンを最大80%削減し、ツールコール精度を維持したり改善したりしながら、思考率を最大95%削減することで、標準アルゴリズムよりも精度・効率のフロンティアを改善する。これらの結果は,遅延に敏感なデプロイメントにおいて,トレーニング信号の選択が効率的な推論のための強力なレバーであることを示している。

関連論文リスト

$\ abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。 $nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文参考訳（メタデータ） (2026-03-05T08:42:54Z)
Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文参考訳（メタデータ） (2026-02-27T05:22:01Z)
What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文参考訳（メタデータ） (2026-02-01T07:30:22Z)
OptPO: Optimal Rollout Allocation for Test-time Policy Optimization [11.375209834858135]
テスト時のポリシー最適化により、大規模言語モデルでは、自己生成ロールアウトからのフィードバックを活用することで、分散シフトに適応することができる。我々は、推論予算を適応的に割り当てる原則的フレームワークであるテスト時間ポリシー最適化のための最適ロールアウト割当(OptPO)を提案する。
論文参考訳（メタデータ） (2025-12-02T15:38:52Z)
Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。 LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文参考訳（メタデータ） (2025-10-06T16:34:09Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。 RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文参考訳（メタデータ） (2025-05-28T09:44:27Z)
PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。 PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文参考訳（メタデータ） (2025-05-22T06:59:10Z)
Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文参考訳（メタデータ） (2024-09-10T17:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。