論文の概要: Class-level Structural Relation Modelling and Smoothing for Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2308.04142v1
- Date: Tue, 8 Aug 2023 09:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:25:15.082509
- Title: Class-level Structural Relation Modelling and Smoothing for Visual
Representation Learning
- Title(参考訳): 視覚表現学習のためのクラスレベル構造関係モデリングと平滑化
- Authors: Zitan Chen, Zhuang Qi, Xiao Cao, Xiangxian Li, Xiangxu Meng, Lei Meng
- Abstract要約: 本稿では、視覚表現学習のためのbfクラスレベルの構造関係モデリングと平滑化というフレームワークを提案する。
クラスレベルの関係モデリング、クラス対応グラフガイドサンプリング、グラフガイド表現学習モジュールが含まれる。
実験では、構造化知識モデリングによる表現学習の有効性を実証し、CSRMSを任意の最先端の視覚的表現学習モデルに組み込むことにより、パフォーマンス向上を図っている。
- 参考スコア(独自算出の注目度): 12.247343963572732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning for images has been advanced by recent progress in
more complex neural models such as the Vision Transformers and new learning
theories such as the structural causal models. However, these models mainly
rely on the classification loss to implicitly regularize the class-level data
distributions, and they may face difficulties when handling classes with
diverse visual patterns. We argue that the incorporation of the structural
information between data samples may improve this situation. To achieve this
goal, this paper presents a framework termed \textbf{C}lass-level Structural
Relation Modeling and Smoothing for Visual Representation Learning (CSRMS),
which includes the Class-level Relation Modelling, Class-aware Graph Sampling,
and Relational Graph-Guided Representation Learning modules to model a
relational graph of the entire dataset and perform class-aware smoothing and
regularization operations to alleviate the issue of intra-class visual
diversity and inter-class similarity. Specifically, the Class-level Relation
Modelling module uses a clustering algorithm to learn the data distributions in
the feature space and identify three types of class-level sample relations for
the training set; Class-aware Graph Sampling module extends typical training
batch construction process with three strategies to sample dataset-level
sub-graphs; and Relational Graph-Guided Representation Learning module employs
a graph convolution network with knowledge-guided smoothing operations to ease
the projection from different visual patterns to the same class. Experiments
demonstrate the effectiveness of structured knowledge modelling for enhanced
representation learning and show that CSRMS can be incorporated with any
state-of-the-art visual representation learning models for performance gains.
The source codes and demos have been released at
https://github.com/czt117/CSRMS.
- Abstract(参考訳): 画像の表現学習は、視覚トランスフォーマーのようなより複雑な神経モデルや、構造因果モデルのような新しい学習理論の進歩によって進歩してきた。
しかし、これらのモデルはクラスレベルのデータ分散を暗黙的に規則化する分類損失に主に依存しており、様々な視覚的パターンを持つクラスを扱う際に困難に直面する可能性がある。
データサンプル間の構造情報の導入は,この状況を改善する可能性がある。
To achieve this goal, this paper presents a framework termed \textbf{C}lass-level Structural Relation Modeling and Smoothing for Visual Representation Learning (CSRMS), which includes the Class-level Relation Modelling, Class-aware Graph Sampling, and Relational Graph-Guided Representation Learning modules to model a relational graph of the entire dataset and perform class-aware smoothing and regularization operations to alleviate the issue of intra-class visual diversity and inter-class similarity.
Specifically, the Class-level Relation Modelling module uses a clustering algorithm to learn the data distributions in the feature space and identify three types of class-level sample relations for the training set; Class-aware Graph Sampling module extends typical training batch construction process with three strategies to sample dataset-level sub-graphs; and Relational Graph-Guided Representation Learning module employs a graph convolution network with knowledge-guided smoothing operations to ease the projection from different visual patterns to the same class.
構造化知識モデルによる表現学習の効果を実証し、csrmを任意の最先端の視覚表現学習モデルと組み込むことで、パフォーマンスの向上が期待できることを示した。
ソースコードとデモはhttps://github.com/czt117/CSRMSで公開されている。
関連論文リスト
- Self-Supervised Contrastive Graph Clustering Network via Structural Information Fusion [15.293684479404092]
CGCNと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,事前学習プロセスにコントラスト信号と深部構造情報を導入している。
本手法は,複数の実世界のグラフデータセットに対して実験的に検証されている。
論文 参考訳(メタデータ) (2024-08-08T09:49:26Z) - Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Sub-Graph Learning for Spatiotemporal Forecasting via Knowledge
Distillation [22.434970343698676]
サブグラフを効果的に学習するためのフレームワークKD-SGLを提案する。
グラフの全体構造と各サブグラフの複数の局所モデルを学ぶために,グローバルモデルを定義する。
論文 参考訳(メタデータ) (2022-11-17T18:02:55Z) - ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial
Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。
提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文 参考訳(メタデータ) (2022-03-01T02:32:25Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。