論文の概要: Convergence for Discrete Parameter Update Schemes
- arxiv url: http://arxiv.org/abs/2512.04051v2
- Date: Fri, 05 Dec 2025 16:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.724812
- Title: Convergence for Discrete Parameter Update Schemes
- Title(参考訳): 離散パラメータ更新方式の収束性
- Authors: Paul Wilson, Fabio Zanasi, George Constantinides,
- Abstract要約: 量子化されたトレーニングは、低ビット整数でトレーニングコンポーネントを表現することでこの問題に対処するが、通常は実際の値更新を判断することに依存する。
我々は、更新ルール自体が離散的な別のアプローチを導入し、設計による継続的更新の定量化を避ける。
- 参考スコア(独自算出の注目度): 0.5844274234531923
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern deep learning models require immense computational resources, motivating research into low-precision training. Quantised training addresses this by representing training components in low-bit integers, but typically relies on discretising real-valued updates. We introduce an alternative approach where the update rule itself is discrete, avoiding the quantisation of continuous updates by design. We establish convergence guarantees for a general class of such discrete schemes, and present a multinomial update rule as a concrete example, supported by empirical evaluation. This perspective opens new avenues for efficient training, particularly for models with inherently discrete structure.
- Abstract(参考訳): 現代のディープラーニングモデルは膨大な計算資源を必要とし、低精度トレーニングの研究を動機付けている。
量子化されたトレーニングは、低ビット整数でトレーニングコンポーネントを表現することでこの問題に対処するが、通常は実際の値更新を判断することに依存する。
我々は、更新ルール自体が離散的な別のアプローチを導入し、設計による継続的更新の定量化を避ける。
このような離散的なスキームの一般クラスに対する収束保証を確立し、経験的評価によって支持された具体例として多項更新規則を提案する。
この観点は、特に本質的に離散的な構造を持つモデルに対して、効率的なトレーニングのための新しい道を開く。
関連論文リスト
- Unlocking Prototype Potential: An Efficient Tuning Framework for Few-Shot Class-Incremental Learning [69.28860905525057]
FSCIL(Few-shot class-incremental Learning)は、非常に限られたサンプルから新しいクラスを継続的に学習することを目的としている。
本稿では,静的セントロイドを動的に学習可能なコンポーネントに進化させる,効率的なファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T03:50:53Z) - Inference-time Unlearning Using Conformal Prediction [13.479885316485209]
Unlearningは、トレーニングされた機械学習モデルから、スクラッチからトレーニングすることなく、特定の情報を効率的に除去するプロセスである。
本稿では、モデルパラメータを更新することなく、検証者からのフィードバックを用いて、生成した応答の質を反復的に改善するフレームワークを提案する。
本稿では,既存の最先端手法を著しく上回り,未学習ベンチマークにおける未学習誤差を最大93%削減する。
論文 参考訳(メタデータ) (2026-02-03T17:46:50Z) - Training-Free Self-Correction for Multimodal Masked Diffusion Models [61.84305395626145]
本研究では,事前学習したマスク拡散モデルの帰納バイアスを利用した学習自由自己補正フレームワークを提案する。
本手法は,サンプリングステップを短縮したテキスト・画像生成およびマルチモーダル理解タスクにおける生成品質を著しく向上させる。
論文 参考訳(メタデータ) (2026-02-02T23:58:15Z) - BinConv: A Neural Architecture for Ordinal Encoding in Time-Series Forecasting [5.827431686047649]
確率予測のために設計された完全畳み込みニューラルネットワークアーキテクチャである textbfBinConv を提案する。
BinConvは、ポイントと確率予測の両方で広く使用されているベースラインデータセットと比較して、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-30T13:41:39Z) - LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。
我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-02-15T10:18:46Z) - Enhancing binary classification: A new stacking method via leveraging computational geometry [5.906199156511947]
本稿では,計算幾何学的手法,特に最大重み付き矩形問題の解法を統合した新しいメタモデルを提案する。
本手法は複数のオープンデータセットを用いて評価し,その安定性と精度の向上を示す統計解析を行った。
本手法は, アンサンブル学習の積み重ねだけでなく, 病院の健康評価評価や銀行信用評価システムなど, 様々な実世界の応用にも応用できる。
論文 参考訳(メタデータ) (2024-10-30T06:11:08Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery [76.63807209414789]
我々は,クラスiNCDにおける現状問題に挑戦し,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。
凍結したPTMバックボーンと学習可能な線形分類器から構成される単純なベースラインを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Subspace Regularizers for Few-Shot Class Incremental Learning [26.372024890126408]
既存のクラスの重みに代表される部分空間に近づき、新しいクラスに対する重みベクトルを奨励する、新しい部分空間正規化スキームの族を示す。
この結果から,クラス表現の幾何学的正則化は連続学習に有効なツールであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T22:19:53Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。