論文の概要: Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2410.06373v1
- Date: Tue, 8 Oct 2024 21:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 06:09:19.648801
- Title: Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning
- Title(参考訳): 視覚表現学習におけるバックボーン・オプティマイザ結合バイアスの展開
- Authors: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li,
- Abstract要約: 本論文は、視覚バックボーンと視覚バックボーンの相互作用と、その相互依存現象であるtextittextbfbackbonetextbfoptimizer textbfcoupling textbfbias (BOCB) について述べる。
我々は、VGGやResNetのような標準CNNがSGDファミリとの顕著な共存を示すのに対し、ViTsやConvNeXtといった最近のアーキテクチャは適応学習率と密接な結合性を持っていることを観察する。
- 参考スコア(独自算出の注目度): 54.956037293979506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into the interplay between vision backbones and optimizers, unvealing an inter-dependent phenomenon termed \textit{\textbf{b}ackbone-\textbf{o}ptimizer \textbf{c}oupling \textbf{b}ias} (BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a marked co-dependency with SGD families, while recent architectures like ViTs and ConvNeXt share a tight coupling with the adaptive learning rate ones. We further show that BOCB can be introduced by both optimizers and certain backbone designs and may significantly impact the pre-training and downstream fine-tuning of vision models. Through in-depth empirical analysis, we summarize takeaways on recommended optimizers and insights into robust vision backbone architectures. We hope this work can inspire the community to question long-held assumptions on backbones and optimizers, stimulate further explorations, and thereby contribute to more robust vision systems. The source code and models are publicly available at https://bocb-ai.github.io/.
- Abstract(参考訳): 本稿では,視覚バックボーンとオプティマイザの相互作用を考察し,BOCB (textbf{b}ackbone-\textbf{o}ptimizer \textbf{c}oupling \textbf{b}ias}) と呼ばれる相互依存現象を明らかにする。
我々は、VGGやResNetのような標準CNNがSGDファミリとの顕著な共存を示すのに対し、ViTsやConvNeXtといった最近のアーキテクチャは適応学習率と密接な結合性を持っていることを観察する。
さらに、BOCBはオプティマイザと特定のバックボーン設計の両方で導入可能であることを示し、視覚モデルの事前学習と下流の微調整に大きな影響を与える可能性があることを示した。
詳細な実証分析を通じて、推奨オプティマイザと堅牢なビジョンバックボーンアーキテクチャに関する洞察を要約する。
この取り組みがコミュニティに、バックボーンとオプティマイザの長期的仮定に疑問を呈し、さらなる探索を刺激し、それによってより堅牢なビジョンシステムに寄与することを願っている。
ソースコードとモデルはhttps://bocb-ai.github.io/.com/で公開されている。
関連論文リスト
- Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - Ordinal Graph Gamma Belief Network for Social Recommender Systems [54.9487910312535]
我々は,階層型ベイズモデルであるオーディナルグラフファクター解析(OGFA)を開発し,ユーザ・イテムとユーザ・ユーザインタラクションを共同でモデル化する。
OGFAは、優れたレコメンデーションパフォーマンスを達成するだけでなく、代表ユーザの好みに応じた解釈可能な潜在因子も抽出する。
我々はOGFAを,マルチ確率層深層確率モデルであるオーディナルグラフガンマ信念ネットワークに拡張する。
論文 参考訳(メタデータ) (2022-09-12T09:19:22Z) - Self-Supervised Hypergraph Transformer for Recommender Systems [25.07482350586435]
自己監督型ハイパーグラフ変換器(SHT)
自己監督型ハイパーグラフ変換器(SHT)
ユーザ-テム相互作用グラフ上のデータ拡張のために,クロスビュー生成型自己教師型学習コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-07-28T18:40:30Z) - Hypergraph Contrastive Collaborative Filtering [44.8586906335262]
新たな自己監督型推薦フレームワークHypergraph Contrastive Collaborative Filtering (HCCF)を提案する。
HCCFは、ハイパーグラフを拡張したクロスビューコントラスト学習アーキテクチャと、ローカルおよびグローバルなコラボレーティブな関係をキャプチャする。
提案モデルでは,ハイパーグラフ構造と自己教師付き学習を効果的に統合し,レコメンダシステムの表現品質を向上する。
論文 参考訳(メタデータ) (2022-04-26T10:06:04Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - Rethinking Depthwise Separable Convolutions: How Intra-Kernel
Correlations Lead to Improved MobileNets [6.09170287691728]
CNNのための高効率なビルディングブロックとして,ブループリント分離型畳み込み(BSConv)を導入する。
それらは、訓練されたモデルからカーネル特性の定量的解析によって動機付けられている。
我々のアプローチは、深く分離可能な畳み込みの適用のために、完全な理論的導出、解釈、正当化を提供する。
論文 参考訳(メタデータ) (2020-03-30T15:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。