論文の概要: Architecture-driven Shift: towards a lightweight selector for capturing the trends of logit shift
- arxiv url: http://arxiv.org/abs/2605.27469v1
- Date: Tue, 26 May 2026 08:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.301487
- Title: Architecture-driven Shift: towards a lightweight selector for capturing the trends of logit shift
- Title(参考訳): アーキテクチャ駆動型シフト:ロジットシフトのトレンドを捉えるための軽量セレクタに向けて
- Authors: Zhong Ye, Yu Hu, Ruilin Tang,
- Abstract要約: 連続学習(CL)は、深層学習ニューラルネットワークのパワーを利用するための実践的なパラダイムである。
ロジットシフトは、CLシナリオにおけるロジットシフトを表すため、自然なプロキシとして機能する。
既存の理論的分析では、均一な隠蔽層幅の仮定のため、効率的な代替手段を提供できない。
- 参考スコア(独自算出の注目度): 1.6194290564561395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Learning (CL) is a practical paradigm to utilize power of deep pre-trained neural networks, but which pre-trained model has a better ability to balance ``Plasticity-Stability", deserving to be chosen? The logit shift serves as a natural proxy because it represents the logit shift in CL scenarios. However, obtaining the logit shift requires huge computational cost, which hinders large-scale model selection. Existing theoretical analyses fail to offer an efficient alternative because of the assumption of uniform hidden layer widths, which ignores the structural heterogeneity (variable width and depth) of real-world architectures. This raises a critical question: what theoretically relationship can be identified between heterogeneous architecture and logit shift on prior tasks (that the model has been trained on)? To answer the question, we decouple logit shift into architecture dependency and data dependency to establish our framework, which reveals that the combination of two dependency, defined as Architecture-driven Shift (ADS), that can capture the logit shift tendency well computable with few data samples. Specifically, for a well-optimized model on prior tasks, higher ADS is associated with a larger logit shift after training on the current task, which derived based on three mechanistic components: (1) spectral norm scaling of weight matrix gradients with layer width, (2) the optimization path length of the new task, and (3) the asymptotic task conflict in wide networks. Extensive empirical results across more than 175 diverse architectures demonstrate a strong monotonic correlation (the weakest Spearman's $r_s=0.731$) between ADS and logit shift. Practically, we demonstrate that ADS can serve as a lightweight proxy of the expected calibration error, which is a widely used metric for reliable CL model selection, on three datasets across six scenarios.
- Abstract(参考訳): 継続学習(CL)は、深い事前学習されたニューラルネットワークのパワーを利用するための実践的なパラダイムであるが、どの事前学習されたモデルが、選択されるために必要な‘Plasticity-Stability’のバランスをとるのがより優れているか?
ロジットシフトは、CLシナリオにおけるロジットシフトを表すため、自然なプロキシとして機能する。
しかし、ロジットシフトを得るには膨大な計算コストが必要であり、大規模なモデル選択を妨げる。
既存の理論的分析では、現実世界の建築の構造的不均一性(幅と深さ)を無視した均一な隠蔽層幅を仮定するため、効率的な代替手段を提供することができない。
異種アーキテクチャと先行タスク(モデルがトレーニングされている)のロジットシフトの間には,理論的にどのような関係があるのか?
この問題に答えるために、ロジットシフトをアーキテクチャ依存とデータ依存に分離して、フレームワークを確立することで、ロジットシフトをほとんどデータサンプルで計算可能なアーキテクチャ駆動シフト(ADS)として定義された2つの依存関係の組み合わせを明らかにする。
具体的には、事前タスクの最適化モデルにおいて、ADSは、(1)層幅の重み行列勾配のスペクトルノルムスケーリング、(2)新しいタスクの最適化パス長、(3)広帯域ネットワークにおける漸近的タスクコンフリクトの3つの要素に基づいて、現在のタスクのトレーニング後により大きなロジットシフトに関連付けられている。
175以上の多様なアーキテクチャにわたる大規模な実験結果は、ADSとロジットシフトの間に強いモノトニックな相関(最も弱いスピアマンの$r_s=0.731$)を示す。
実際に、ADSは6つのシナリオにわたる3つのデータセット上で、信頼性の高いCLモデル選択の指標として広く使用されているキャリブレーションエラーの軽量プロキシとして機能することを実証する。
関連論文リスト
- Cross-Sample Relational Fusion: Unifying Domain Generalization and Class-Incremental Learning [83.67663266193308]
CIL(Class-Incremental Learning)は、学習システムにおいて、それまでの知識を維持しつつ、新しいクラスを学ぶことを必要とする。
自動運転車のような現実のシナリオでは、晴れた日に都市部の道路で訓練されたシステムは、後に農村部や高速道路環境で運用する必要がある。
ドメインシフトと破滅的な忘れを同時に解決する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-09T09:49:13Z) - Model Merging: Foundations and Algorithms [4.528573838858818]
この論文はモデルマージを研究し、独立に訓練されたニューラルネットワークを直接重み空間で組み合わせる。
C$2$M$3$は、Frank-Wolfe最適化に基づくサイクル一貫性のマージアルゴリズムである。
マルチタスク設定では、まずタスクベクトルを近似勾配として理論的に記述する。
次に,TSV幾何を用いた入力適応型ルーティング手法であるMASSを提案し,推定時にタスク関連部分空間を選択する。
論文 参考訳(メタデータ) (2026-05-02T19:06:35Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - TRACE: Theoretical Risk Attribution under Covariate-shift Effects [4.211510706776732]
ソースをトレーニングしたモデル$Q$を、シフトしたデータに基づいてトレーニングされたモデル$tildeQ$に置き換えると、ソースドメインのパフォーマンスは予測不能に変化する可能性がある。
TRACEは$|R|$を解釈可能な上界に分解するフレームワークである。
論文 参考訳(メタデータ) (2026-02-11T07:22:33Z) - OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。
現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。
自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:44Z) - Multi-Sensor Matching with HyperNetworks [14.911092205861822]
ハイパーネットワークを活用し、マルチモーダルパッチマッチングを改善します。
本稿では,Siamese CNNを拡張した軽量な記述型学習アーキテクチャを提案する。
また、500Kペアのクロスプラットフォーム(地上/空中)VIS-IRパッチデータセットであるGAP-VIRをリリースしています。
論文 参考訳(メタデータ) (2026-01-18T09:19:33Z) - Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime [24.425649636862122]
より均一に分散したデータを選択することで、トレーニング効率が向上し、性能が向上することを示す。
具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を大きくすることを示す。
理論的には、ニューラルネットワークの近似誤差は、h_min$が増加するにつれて減少する。
論文 参考訳(メタデータ) (2025-06-30T17:58:30Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Dual Adversarial Alignment for Realistic Support-Query Shift Few-shot
Learning [15.828113109152069]
Support-Query Shift Few-shot Learningは、低次元空間に埋め込まれた学習結果に基づいて、未確認例(クエリセット)をラベル付きデータ(サポートセット)に分類することを目的としている。
本稿では,現実的なサポートクエリシフト (Realistic Support-Query Shift) という,新しい難題を提案する。
さらに,DuaL(dual adversarial alignment framework)と呼ばれる一貫した対角的特徴アライメント手法を提案し,RSQSをドメイン間バイアスとドメイン内分散の2つの側面から緩和する。
論文 参考訳(メタデータ) (2023-09-05T09:50:31Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。