論文の概要: Test-time Diverse Reasoning by Riemannian Activation Steering
- arxiv url: http://arxiv.org/abs/2511.08305v1
- Date: Wed, 12 Nov 2025 01:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.751212
- Title: Test-time Diverse Reasoning by Riemannian Activation Steering
- Title(参考訳): Riemann Activation Steering によるテスト時間逆推論
- Authors: Ly Tran Ho Khanh, Dongxuan Zhu, Man-Chung Yue, Viet Anh Nguyen,
- Abstract要約: Best-of-N$推論は、複数の候補解をサンプリングし、いくつかの基準に基づいて最適なものを選択することで、複雑なタスクを解く際の言語モデルの精度を向上させる。
この戦略の重要なボトルネックは出力限界の多様性であり、これはモデルがサンプリングにもかかわらず同様の出力を生成した時に発生し、したがって同じエラーを引用する。
本稿では,複数の推論軌道に対して同時にステアリングベクトルを最適化する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 16.26456436031057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Best-of-$N$ reasoning improves the accuracy of language models in solving complex tasks by sampling multiple candidate solutions and then selecting the best one based on some criteria. A critical bottleneck for this strategy is the output diversity limit, which occurs when the model generates similar outputs despite stochastic sampling, and hence recites the same error. To address this lack of variance in reasoning paths, we propose a novel unsupervised activation steering strategy that simultaneously optimizes the steering vectors for multiple reasoning trajectories at test time. At any synchronization anchor along the batch generation process, we find the steering vectors that maximize the total volume spanned by all possible intervened activation subsets. We demonstrate that these steering vectors can be determined by solving a Riemannian optimization problem over the product of spheres with a log-determinant objective function. We then use a Riemannian block-coordinate descent algorithm with a well-tuned learning rate to obtain a stationary point of the problem, and we apply these steering vectors until the generation process reaches the subsequent synchronization anchor. Empirical evaluations on popular mathematical benchmarks demonstrate that our test-time Riemannian activation steering strategy outperforms vanilla sampling techniques in terms of generative diversity and solution accuracy.
- Abstract(参考訳): Best-of-N$推論は、複数の候補解をサンプリングし、いくつかの基準に基づいて最適なものを選択することで、複雑なタスクを解く際の言語モデルの精度を向上させる。
この戦略の重要なボトルネックは出力の多様性の限界であり、これはモデルが確率的なサンプリングにもかかわらず同様の出力を生成した時に起こり、したがって同じエラーを引用する。
このような推論経路のばらつきの欠如に対処するために,テスト時に複数の推論軌道に対する操舵ベクトルを同時に最適化する,教師なしのアクティベーションステアリング戦略を提案する。
バッチ生成プロセスに沿った任意の同期アンカーにおいて、全ての活性化部分集合が持つ総体積を最大化するステアリングベクトルを求める。
これらのステアリングベクトルは、対数決定対象関数を持つ球の積上のリーマン最適化問題を解くことで決定できることを示す。
次に, 定常点を得るために, 十分に調整された学習率を持つリーマンブロック座標降下アルゴリズムを用い, 生成プロセスがその後の同期アンカーに到達するまでこれらのステアリングベクトルを適用した。
一般的な数学ベンチマークの実証評価により,我々のテスト時間リーマン活性化ステアリング戦略は,生成的多様性と解の正確性の観点から,バニラサンプリング技術より優れていることが示された。
関連論文リスト
- Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Vector Optimization with Gaussian Process Bandits [7.049738935364297]
複数の目的を同時に考慮しなければならない学習問題は、工学、薬物設計、環境管理など、様々な分野においてしばしば発生する。
複数のブラックボックスの目的関数を扱う従来の方法は、目的の選好を取り入れ、それに応じて解空間を探索することに制限がある。
ガウス過程の帯域幅を用いてブラックボックスベクトル最適化を行う適応除去アルゴリズムであるガウス過程を用いたベクトル最適化(VOGP)を提案する。
論文 参考訳(メタデータ) (2024-12-03T14:47:46Z) - Harmonic Path Integral Diffusion [0.4527270266697462]
本稿では,連続多変量確率分布から抽出する新しい手法を提案する。
本手法では,状態空間の起点を中心とするデルタ関数を$t=0$とし,ターゲット分布に$t=1$で変換する。
これらのアルゴリズムは他のサンプリング手法、特にシミュレートおよびパス積分サンプリングと対比し、解析制御、精度、計算効率の点でそれらの利点を強調した。
論文 参考訳(メタデータ) (2024-09-23T16:20:21Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - A Stochastic Newton Algorithm for Distributed Convex Optimization [62.20732134991661]
均質な分散凸最適化のためのNewtonアルゴリズムを解析し、各マシンが同じ人口目標の勾配を計算する。
提案手法は,既存の手法と比較して,性能を損なうことなく,必要な通信ラウンドの数,頻度を低減できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:51:10Z) - Adaptive Sampling Quasi-Newton Methods for Zeroth-Order Stochastic
Optimization [1.7513645771137178]
勾配情報のない制約のない最適化問題を考察する。
適応的なサンプリング準ニュートン法を提案し、共通乱数フレームワーク内の有限差を用いてシミュレーション関数の勾配を推定する。
そこで本研究では, 標準試験と内積準ニュートン試験の修正版を開発し, 近似に使用する試料サイズを制御し, 最適解の近傍に大域収束結果を与える。
論文 参考訳(メタデータ) (2021-09-24T21:49:25Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Convergent Working Set Algorithm for Non-Convex Regularized
Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。
その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文 参考訳(メタデータ) (2020-06-24T07:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。