論文の概要: Enhancing Compositional Generalization via Compositional Feature
Alignment
- arxiv url: http://arxiv.org/abs/2402.02851v1
- Date: Mon, 5 Feb 2024 10:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:57:49.987576
- Title: Enhancing Compositional Generalization via Compositional Feature
Alignment
- Title(参考訳): 合成特徴アライメントによる合成一般化の促進
- Authors: Haoxiang Wang, Haozhe Si, Huajie Shao, Han Zhao
- Abstract要約: 我々は、既存の実世界の画像データセットから派生したCGベンチマークスイートであるCG-Benchを開発した。
簡単な2段階ファインタニング手法であるコンポジション・フィーチャーアライメント(CFA)を提案する。
CG-Bench for CLIP and DINOv2, two powerful pretrained vision foundation model。
- 参考スコア(独自算出の注目度): 15.61061934384114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world applications of machine learning models often confront data
distribution shifts, wherein discrepancies exist between the training and test
data distributions. In the common multi-domain multi-class setup, as the number
of classes and domains scales up, it becomes infeasible to gather training data
for every domain-class combination. This challenge naturally leads the quest
for models with Compositional Generalization (CG) ability, where models can
generalize to unseen domain-class combinations. To delve into the CG challenge,
we develop CG-Bench, a suite of CG benchmarks derived from existing real-world
image datasets, and observe that the prevalent pretraining-finetuning paradigm
on foundational models, such as CLIP and DINOv2, struggles with the challenge.
To address this challenge, we propose Compositional Feature Alignment (CFA), a
simple two-stage finetuning technique that i) learns two orthogonal linear
heads on a pretrained encoder with respect to class and domain labels, and ii)
fine-tunes the encoder with the newly learned head frozen. We theoretically and
empirically justify that CFA encourages compositional feature learning of
pretrained models. We further conduct extensive experiments on CG-Bench for
CLIP and DINOv2, two powerful pretrained vision foundation models. Experiment
results show that CFA outperforms common finetuning techniques in compositional
generalization, corroborating CFA's efficacy in compositional feature learning.
- Abstract(参考訳): 機械学習モデルの現実世界の応用は、トレーニングとテストデータ分布の食い違いがあるデータ分散シフトに直面することが多い。
一般的なマルチドメインマルチクラスセットアップでは、クラス数やドメイン数が大きくなると、各ドメインクラスの組み合わせでトレーニングデータを集めることは不可能になる。
この課題は自然に、合成一般化(CG)能力を持つモデルを探し求め、モデルが目に見えないドメイン-クラスの組み合わせに一般化できる。
CGの課題を掘り下げるために,既存の実世界の画像データセットから派生したCGベンチマークスイートであるCG-Benchを開発し,CLIPやDINOv2といった基礎モデルの事前学習ファインタニングパラダイムが課題に対処していることを観察する。
この課題に対処するために,簡単な2段階ファインタニング手法であるコンポジション・フィーチャーアライメント(CFA)を提案する。
一 クラス及びドメインラベルに関する事前訓練されたエンコーダ上で二本の直交線形ヘッドを学ぶこと。
二 新たに学習した頭部を凍結したエンコーダを微調整すること。
我々はCFAが事前学習されたモデルの合成特徴学習を促進することを理論的および実証的に正当化する。
CG-Bench for CLIP と DINOv2, 2つの強力な事前学習型視覚基盤モデルについて広範な実験を行った。
実験の結果, CFAは合成一般化において一般的な微調整技術より優れており, 合成特徴学習におけるCFAの有効性が相関していることがわかった。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Layerwise complexity-matched learning yields an improved model of cortical area V2 [12.861402235256207]
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドを訓練した。
我々は,連続する層に独立して機能する自己指導型トレーニング手法を開発した。
本モデルは, 霊長類領域V2における選択性特性と神経活動に適合していることが示唆された。
論文 参考訳(メタデータ) (2023-12-18T18:37:02Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - CFA: Class-wise Calibrated Fair Adversarial Training [31.812287233814295]
我々は、クラスごとに個別のトレーニング設定を自動的にカスタマイズする、CFAという名前の textbfClass-wise calibrated textbfFair textbfAdversarial training frameworkを提案する。
我々の提案したCFAは、他の最先端手法よりも、全体的な堅牢性と公正性の両方を改善することができる。
論文 参考訳(メタデータ) (2023-03-25T13:05:16Z) - Learning from Mistakes: Self-Regularizing Hierarchical Representations
in Point Cloud Semantic Segmentation [15.353256018248103]
LiDARセマンティックセマンティックセマンティクスは、きめ細かいシーン理解を実現するために注目を集めている。
本稿では、標準モデルから派生した分類ミスタケス(LEAK)からLEArnを分離する粗大な設定を提案する。
我々のLEAKアプローチは非常に一般的で、どんなセグメンテーションアーキテクチャにもシームレスに適用できます。
論文 参考訳(メタデータ) (2023-01-26T14:52:30Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Motor Imagery Decoding Using Ensemble Curriculum Learning and
Collaborative Training [11.157243900163376]
マルチオブジェクトEEGデータセットは、いくつかの種類のドメインシフトを示す。
これらの領域シフトは、堅牢なクロスオブジェクトの一般化を妨げる。
複数の特徴抽出器を組み込んだ2段階モデルアンサンブルアーキテクチャを提案する。
我々のモデルアンサンブルアプローチはカリキュラム学習と協調学習の力を組み合わせたものであることを実証する。
論文 参考訳(メタデータ) (2022-11-21T13:45:44Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。