論文の概要: Does This Gradient Spark Joy?
- arxiv url: http://arxiv.org/abs/2603.20526v1
- Date: Fri, 20 Mar 2026 21:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.951893
- Title: Does This Gradient Spark Joy?
- Title(参考訳): このグラディエントなSparkは役に立つか?
- Authors: Ian Osband,
- Abstract要約: 政策勾配は、後方通過が高価であり、ほとんどのサンプルは学習価値がほとんどないにもかかわらず、すべてのサンプルの後方通過を計算する。
我々はEmphKondoゲートを導入し、このゲートは計算価格と比較し、サンプルの価値がある場合にのみ後戻りパスを支払う。
- 参考スコア(独自算出の注目度): 1.1886634182318419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient computes a backward pass for every sample, even though the backward pass is expensive and most samples carry little learning value. The Delightful Policy Gradient (DG) provides a forward-pass signal of learning value: \emph{delight}, the product of advantage and surprisal (negative log-probability). We introduce the \emph{Kondo gate}, which compares delight against a compute price and pays for a backward pass only when the sample is worth it, thereby tracing a quality--cost Pareto frontier. In bandits, zero-price gating preserves useful gradient signal while removing perpendicular noise, and delight is a more reliable screening signal than additive combinations of value and surprise. On MNIST and transformer token reversal, the Kondo gate skips most backward passes while retaining nearly all of DG's learning quality, with gains that grow as problems get harder and backward passes become more expensive. Because the gate tolerates approximate delight, a cheap forward pass can screen samples before expensive backpropagation, suggesting a speculative-decoding-for-training paradigm.
- Abstract(参考訳): 政策勾配は、後方通過が高価であり、ほとんどのサンプルは学習価値がほとんどないにもかかわらず、すべてのサンプルの後方通過を計算する。
Delightful Policy Gradient (DG)は、学習価値の前方通過信号を提供する: \emph{delight}, the product of advantage and surprisal (負の対数確率)。
計算価格と比較し,サンプルに価値がある場合にのみ後方パスを支払うことで,高品質なパレートフロンティアをトレースする「emph{Kondo gate}」を紹介した。
バンディットでは、ゼロプライスゲーティングは垂直ノイズを除去しながら有用な勾配信号を保持し、喜びは付加的な値とサプライズの組み合わせよりも信頼性の高いスクリーニング信号である。
MNISTとトランスフォーマートークンの反転では、コンドゲートはDGの学習品質のほとんどを保ちながら、ほとんどの後方パスをスキップする。
ゲートはおよその喜びを許容するため、安価なフォワードパスは高価なバックプロパゲーションの前にサンプルをスクリーニングすることができるため、投機的復号学習パラダイムが提案される。
関連論文リスト
- Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training [25.817291413560024]
Pass@kは、大きな言語モデルタスクを検証するために広く使われているパフォーマンス指標である。
pass@kは改善され、pass@1はそのようなメソッドで分解される。
pass@$k$ ポリシー勾配はpass@1グラデーションと競合する可能性がある。
論文 参考訳(メタデータ) (2026-02-24T18:43:08Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。
本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。
確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文 参考訳(メタデータ) (2025-06-06T15:42:15Z) - Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。
これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文 参考訳(メタデータ) (2024-11-19T03:48:48Z) - Sampling-based Fast Gradient Rescaling Method for Highly Transferable
Adversarial Attacks [18.05924632169541]
サンプリングに基づく高速勾配再スケーリング法(S-FGRM)を提案する。
具体的には、余分な計算コストを伴わずに手話関数を置換するためにデータ再スケーリングを用いる。
本手法は, 勾配に基づく攻撃の伝達可能性を大幅に向上させ, 最先端のベースラインより優れる可能性がある。
論文 参考訳(メタデータ) (2023-07-06T07:52:42Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Sampling-based Fast Gradient Rescaling Method for Highly Transferable
Adversarial Attacks [19.917677500613788]
勾配ベースのアプローチは一般的に、プロセスの最後に摂動を生成するために$sign$関数を使用する。
そこで本研究では,S-FGRM(Saming-based Fast Gradient Rescaling Method)を提案する。
論文 参考訳(メタデータ) (2022-04-06T15:12:20Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Staircase Sign Method for Boosting Adversarial Attacks [123.19227129979943]
トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。
そこで本研究では,この問題を緩和するための新しい階段サイン法(S$2$M)を提案する。
我々の手法は一般に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2021-04-20T02:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。