論文の概要: Self-Supervised Learning from Images with a Joint-Embedding Predictive
Architecture
- arxiv url: http://arxiv.org/abs/2301.08243v1
- Date: Thu, 19 Jan 2023 18:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:14:37.934572
- Title: Self-Supervised Learning from Images with a Joint-Embedding Predictive
Architecture
- Title(参考訳): 統合埋め込み予測アーキテクチャを用いた画像からの自己教師付き学習
- Authors: Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal
Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas
- Abstract要約: 本稿では,手作業によるデータ拡張に頼らずに,高度に意味のある画像表現を学習するためのアプローチを示す。
本稿では,画像からの自己教師型学習のための非生成的アプローチであるイメージベースジョイントエンベッドディング予測アーキテクチャ(I-JEPA)を紹介する。
- 参考スコア(独自算出の注目度): 43.83887661156133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper demonstrates an approach for learning highly semantic image
representations without relying on hand-crafted data-augmentations. We
introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a
non-generative approach for self-supervised learning from images. The idea
behind I-JEPA is simple: from a single context block, predict the
representations of various target blocks in the same image. A core design
choice to guide I-JEPA towards producing semantic representations is the
masking strategy; specifically, it is crucial to (a) predict several target
blocks in the image, (b) sample target blocks with sufficiently large scale
(occupying 15%-20% of the image), and (c) use a sufficiently informative
(spatially distributed) context block. Empirically, when combined with Vision
Transformers, we find I-JEPA to be highly scalable. For instance, we train a
ViT-Huge/16 on ImageNet using 32 A100 GPUs in under 38 hours to achieve strong
downstream performance across a wide range of tasks requiring various levels of
abstraction, from linear classification to object counting and depth
prediction.
- Abstract(参考訳): 本稿では,手作りデータに頼らずに,高度に意味のある画像表現を学習するためのアプローチを示す。
本稿では,画像からの自己教師型学習のための非生成的アプローチであるイメージベースジョイントエンベッドディング予測アーキテクチャ(I-JEPA)を紹介する。
I-JEPAの背景にあるアイデアは単純で、単一のコンテキストブロックから、同じイメージ内の様々なターゲットブロックの表現を予測する。
I-JEPAを意味表現に導くための中核的な設計選択はマスキング戦略である。
(a)画像中の複数の対象ブロックを予測する。
(b)十分な規模(画像の15%~20%を占める)のサンプルターゲットブロック及び
(c)十分な情報(分散)コンテキストブロックを使用する。
実証的には、Vision Transformersと組み合わせると、I-JEPAは高度にスケーラブルである。
例えば、イメージネット上で32のA100 GPUを使用してViT-Huge/16を38時間以内にトレーニングし、線形分類からオブジェクトカウント、深さ予測に至るまで、さまざまなレベルの抽象化を必要とするタスクにわたって、強力なダウンストリームパフォーマンスを実現する。
関連論文リスト
- Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Object-Based Image Coding: A Learning-Driven Revisit [30.550019759674477]
根本的な問題は、任意の形状のオブジェクトを細かい粒度で効率的に処理する方法である。
我々は,画像層分解のためのオブジェクトセグメンテーションネットワークと,マスク付き前景オブジェクトと背景シーンを別々に処理するための並列畳み込みに基づくニューラルイメージ圧縮ネットワークを提案する。
すべてのコンポーネントは、視覚的に快適な再構築のための貢献をインテリジェントに評価するために、エンドツーエンドの学習フレームワークに最適化されています。
論文 参考訳(メタデータ) (2020-03-18T04:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。