論文の概要: RASP-Tuner: Retrieval-Augmented Soft Prompts for Context-Aware Black-Box Optimization in Non-Stationary Environments
- arxiv url: http://arxiv.org/abs/2604.18026v1
- Date: Mon, 20 Apr 2026 09:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.795584
- Title: RASP-Tuner: Retrieval-Augmented Soft Prompts for Context-Aware Black-Box Optimization in Non-Stationary Environments
- Title(参考訳): RASP-Tuner:非定常環境におけるコンテキスト認識型ブラックボックス最適化のための検索型ソフトプロンプト
- Authors: Enze Pan,
- Abstract要約: オンラインチューニングを文脈条件による後悔の最小化として提示する。
RASP-Tunerは、第一原理によって動機付けられた分解をインスタンス化する。
9つの総合的非定常ベンチマークにおいて、RASP-TunerはGP-UCBおよびCMA-ES実装と比較して累積的後悔を改善または一致させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many deployed systems expose black-box objectives whose minimizing configuration shifts with an externally observed context. When contexts revisit a small set of latent regimes, an optimizer that discards history pays repeated adaptation cost; when each step must remain inexpensive, full Gaussian-process (GP) refits at high observation counts are difficult to sustain. We cast online tuning as context-conditioned regret minimization and present RASP-Tuner, which instantiates a decomposition motivated by first principles: (i) identify a regime proxy by retrieving similar past contexts; (ii) predict short-horizon loss with a mixture-of-experts surrogate whose input concatenates parameters, context, and a retrieved soft prompt; (iii) adapt chiefly in a low-dimensional prompt subspace, invoking full surrogate updates only when scalarized error or disagreement spikes. A RealErrorComposer maps heterogeneous streaming metrics to [0,1] via EMA-stabilized logistic scores, supplying a single differentiable training target. On nine synthetic non-stationary benchmarks, an adversarial-context sanity check, and three tabular real-world streams (Section on real-world experiments), RASP-Tuner improves or matches cumulative regret relative to our GP-UCB and CMA-ES implementations on seven of nine synthetic tasks under paired tests at horizon T=100, while recording 8-12 times lower wall-clock per step than sliding-window GP-UCB on identical hardware. Idealized analysis in a cluster-separated, strongly convex regime model (RA-GD) supplies sufficient conditions for bounded dynamic regret; the deployed pipeline violates several of these premises, and we articulate which gaps remain open.
- Abstract(参考訳): デプロイされたシステムの多くはブラックボックスの目的を公開し、外部から観測されたコンテキストで構成変更を最小限に抑える。
文脈が潜伏状態の小さな集合を再考する場合、歴史を捨てる最適化器は繰り返し適応コストを支払う。各ステップが安価でなければならない場合、高い観測回数での完全なガウス過程(GP)の補正は困難である。
オンラインチューニングを、文脈条件による後悔の最小化と、第一原理によって動機付けられた分解をインスタンス化する現在のRASP-Tunerとみなした。
一 類似した過去の文脈を検索して政令を定めること。
二 入力がパラメータ、文脈及び取得したソフトプロンプトを連結した実験用サロゲートによる短距離損失を予測すること。
三 主に低次元のプロンプト部分空間に適応し、スカラー化エラー又は不一致スパイク時にのみフルサロゲート更新を起動する。
RealErrorComposerは、EMA安定化ロジスティックスコアを通じて、異種ストリーミングメトリクスを[0,1]にマッピングし、単一の異なるトレーニングターゲットを提供する。
9つの合成非定常ベンチマーク、逆コンテキストの正当性チェック、3つの表状の実世界ストリーム(実世界実験のSection)において、RASP-TunerはGP-UCBとCMA-ESの実装と比較して、水平T=100でペアリングテストされた9つの合成タスクのうちの7つに対して、同一ハードウェア上のGP-UCBよりも8~12倍低い壁時を記録しながら、累積的後悔を改善または一致させる。
クラスタ分離型強凸構造モデル(RA-GD)における理想的な解析は,これらの前提に違反し,どのギャップが開いているかを明確にする。
関連論文リスト
- ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation [3.8707695363745214]
ReHARKは、グローバルな近位正規化を通じて、少数ショット適応を再解釈する、トレーニング不要のフレームワークである。
ワンショット適応のための新しい最先端技術がReHARKによって確立され、平均精度は65.83%である。
論文 参考訳(メタデータ) (2026-03-12T04:59:09Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment [27.352639822596146]
クロスワーカーの損失と勾配のばらつきは、従来の監視信号では見えない。
本稿では,標準パイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,モデルに依存しない診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T04:42:30Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - HyperTTA: Test-Time Adaptation for Hyperspectral Image Classification under Distribution Shifts [28.21559601586271]
HyperTTA (Test-Time Adaptable Transformer for Hyperspectral Degradation) は、様々な劣化条件下でモデルロバスト性を高める統一フレームワークである。
テスト時の適応戦略である、信頼を意識したエントロピー最小化LayerNorm Adapter (CELA)は、LayerNorm層のアフィンパラメータのみを動的に更新する。
2つのベンチマークデータセットの実験では、HyperTTAがさまざまな劣化シナリオで最先端のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2025-09-10T09:31:37Z) - Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning [1.3680468021400563]
ヴィジュアル言語モデル(VLM)の核となる課題は、ほとんどない
PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T23:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。