論文の概要: Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering
- arxiv url: http://arxiv.org/abs/2601.22010v1
- Date: Thu, 29 Jan 2026 17:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.035939
- Title: Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering
- Title(参考訳): 推論時スティフェル活性化ステアリングによる逆生成経路の探索
- Authors: Dongxuan Zhu, Ly Tran Ho Khanh, Andy Yat-Ming Cheung, Man-Chung Yue, Viet Anh Nguyen,
- Abstract要約: 言語モデルは、しばしば、高確率出力の狭いセットにデフォルトされ、生成パスは均質でモード崩壊しがちである。
本研究では,STARSを導入した。STARSは,アクティベーションステアリングを探索エンジンに変換する,トレーニング不要な推論時間介入手法である。
テストケース生成と科学的発見ベンチマークでは、STARSは標準サンプリング法より一貫して優れている。
- 参考スコア(独自算出の注目度): 15.160204778653302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often default to a narrow set of high-probability outputs, leaving their generation paths homogeneous and prone to mode collapse. Sampling-based strategies inject randomness but still struggle to guarantee diversity across multiple concurrent generation runs. We address this limitation by introducing STARS ($\textbf{St}$iefel-based $\textbf{A}$ctivation Steering for Diverse $\textbf{R}$ea$\textbf{S}$oning), a training-free, inference-time intervention method that transforms activation steering into an exploration engine. At each token, STARS collects the hidden activations of concurrent generation runs and optimizes multiple additive steering directions jointly on the Stiefel manifold. STARS maximizes the geometric volume of the steered activations, while the Stiefel manifold induces orthogonality of the steering interventions. This formulation explicitly promotes divergent activation vectors of concurrent generation runs, and implicitly promotes divergent generation trajectories. This manifold optimization formulation can be solved using a Riemannian gradient descent algorithm with convergence guarantees, but this algorithm is too time-consuming for real-time inference. To guarantee low latency, we further design a lightweight one-step update with an aggressive, closed-form stepsize. For test case generation and scientific discovery benchmarks, STARS consistently outperforms standard sampling methods, achieving greater diversity without sacrificing qualitative performance.
- Abstract(参考訳): 言語モデルは、しばしば、高確率出力の狭いセットにデフォルトされ、生成パスは均質でモード崩壊しがちである。
サンプリングベースの戦略は、ランダム性を注入するが、複数の同時生成実行における多様性を保証するのに苦慮している。
STARS$\textbf{St}$iefel-based $\textbf{A}$ctivation Steering for Diverse $\textbf{R}$ea$\textbf{S}$oning, この制限に対処する。
各トークンにおいて、STARSは同時生成の実行の隠れ活性化を収集し、スティーフェル多様体上で複数の加算ステアリング方向を最適化する。
STARSはステアリング活性化の幾何体積を最大化し、スティフェル多様体はステアリング介入の直交性を誘導する。
この定式化は、並列生成実行の発散活性化ベクトルを明示的に促進し、暗黙的に発散生成軌跡を促進させる。
この多様体最適化の定式化は収束保証付きリーマン勾配降下アルゴリズムを用いて解くことができるが、このアルゴリズムはリアルタイム推論には時間がかかりすぎる。
低レイテンシを保証するため、攻撃的でクローズドなステップサイズで軽量なワンステップアップデートを設計する。
テストケースの生成と科学的発見のベンチマークでは、STARSは定性的な性能を犠牲にすることなく、標準サンプリング法を一貫して上回り、さらなる多様性を達成する。
関連論文リスト
- Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。
我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文 参考訳(メタデータ) (2026-02-04T08:59:57Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Know Your Step: Faster and Better Alignment for Flow Matching Models via Step-aware Advantages [6.470160796651034]
本研究では,画像モデルに対するフローマッチングテキストを,人間の好みによく適合した効率的な数ステップ生成器にトレーニングするための新しいフレームワークを提案する。
TAFS GRPOは画像生成のステップ数で高い性能を示し、生成した画像と人間の好みとのアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2026-02-02T03:32:00Z) - TABES: Trajectory-Aware Backward-on-Entropy Steering for Masked Diffusion Models [35.327100592206115]
Backward-on-Entropy (BoE) Steeringは勾配誘導型推論フレームワークで、無限水平コンテキストを1つの後方パスで近似する。
スケーラビリティを確保するために,マスク対象の構造を利用した疎結合プリミティブであるttexttActiveQueryAttentionを導入し,後方通過の複雑さを低減する。
論文 参考訳(メタデータ) (2026-01-30T19:10:32Z) - Test-time Diverse Reasoning by Riemannian Activation Steering [16.26456436031057]
Best-of-N$推論は、複数の候補解をサンプリングし、いくつかの基準に基づいて最適なものを選択することで、複雑なタスクを解く際の言語モデルの精度を向上させる。
この戦略の重要なボトルネックは出力限界の多様性であり、これはモデルがサンプリングにもかかわらず同様の出力を生成した時に発生し、したがって同じエラーを引用する。
本稿では,複数の推論軌道に対して同時にステアリングベクトルを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-11T14:35:41Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations [17.357140159249496]
本稿では,局所的な急激な最大値の検出と回避を適応的に行う新しいサンプリング戦略を提案する。
Ctrl-Zサンプリングは生成品質を著しく向上するが,元のNFEの7.72倍程度しか必要としないことを示す。
論文 参考訳(メタデータ) (2025-06-25T10:01:00Z) - GE-AdvGAN: Improving the transferability of adversarial samples by
gradient editing-based adversarial generative model [69.71629949747884]
GAN(Generative Adversarial Networks)のような逆生成モデルは、様々な種類のデータを生成するために広く応用されている。
本研究では, GE-AdvGAN という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-11T16:43:16Z) - Bayesian Pseudo-Coresets via Contrastive Divergence [5.479797073162603]
対照的な発散を利用して擬似コアセットを構築するための新しい手法を提案する。
これは擬似コアセット構築プロセスにおける近似の必要性を排除する。
複数のデータセットに対して広範な実験を行い、既存のBPC技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T17:13:50Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。