論文の概要: Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics
- arxiv url: http://arxiv.org/abs/2004.02331v1
- Date: Sun, 5 Apr 2020 22:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:11:57.138362
- Title: Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics
- Title(参考訳): 局所的なピクセル統計を超越した自己監督型特徴学習
- Authors: Simon Jenni, Hailin Jin, Paolo Favaro
- Abstract要約: 画像の特定の変換の識別に基づく自己教師型特徴学習の新しい原理を提案する。
実験により,LCI,画像ワープ,回転などの変換を識別する学習が,技術一般化能力の状態を特徴付けることを示した。
- 参考スコア(独自算出の注目度): 60.92229707497999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel principle for self-supervised feature learning based on
the discrimination of specific transformations of an image. We argue that the
generalization capability of learned features depends on what image
neighborhood size is sufficient to discriminate different image
transformations: The larger the required neighborhood size and the more global
the image statistics that the feature can describe. An accurate description of
global image statistics allows to better represent the shape and configuration
of objects and their context, which ultimately generalizes better to new tasks
such as object classification and detection. This suggests a criterion to
choose and design image transformations. Based on this criterion, we introduce
a novel image transformation that we call limited context inpainting (LCI).
This transformation inpaints an image patch conditioned only on a small
rectangular pixel boundary (the limited context). Because of the limited
boundary information, the inpainter can learn to match local pixel statistics,
but is unlikely to match the global statistics of the image. We claim that the
same principle can be used to justify the performance of transformations such
as image rotations and warping. Indeed, we demonstrate experimentally that
learning to discriminate transformations such as LCI, image warping and
rotations, yields features with state of the art generalization capabilities on
several datasets such as Pascal VOC, STL-10, CelebA, and ImageNet. Remarkably,
our trained features achieve a performance on Places on par with features
trained through supervised learning with ImageNet labels.
- Abstract(参考訳): 本稿では,画像の特定の変換の識別に基づく自己教師付き特徴学習のための新しい原理を提案する。
学習した特徴の一般化能力は、異なる画像変換を識別するのに十分な画像近傍サイズに依存する、と我々は主張する: 必要な近傍サイズが大きいほど、その特徴が記述できる画像統計はよりグローバルになる。
グローバルな画像統計の正確な記述は、オブジェクトの形状と構成をより良く表現し、最終的にはオブジェクトの分類や検出といった新しいタスクに良く一般化する。
これは画像変換を選択し設計する基準を示唆している。
この基準に基づき,限定的文脈インペイント(LCI)と呼ばれる新しい画像変換を導入する。
この変換は、小さな長方形のピクセル境界(限られたコンテキスト)にのみ条件付きイメージパッチを印字する。
境界情報に制限があるため、インパインターは局所的なピクセルの統計にマッチすることを学べるが、画像のグローバル統計にマッチする可能性は低い。
我々は、画像回転やワーピングなどの変換の性能を正当化するために同じ原理が使用できると主張する。
実際、我々は、LCI、画像ワープ、回転などの変換を識別する学習が、Pascal VOC、STL-10、CelebA、ImageNetなどのいくつかのデータセット上で、アート一般化能力の状態を特徴付けることを示した。
驚くべきことに、トレーニングされた機能はimagenetラベルによる教師付き学習で訓練された機能と同等の性能を達成しています。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。
本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。
4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-28T09:46:56Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - TransformNet: Self-supervised representation learning through predicting
geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文 参考訳(メタデータ) (2022-02-08T22:41:01Z) - Mining Contextual Information Beyond Image for Semantic Segmentation [37.783233906684444]
セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
論文 参考訳(メタデータ) (2021-08-26T14:34:23Z) - Conditional Sequential Modulation for Efficient Global Image Retouching [45.99310982782054]
フォトリタッチは、露出過度、コントラストの低さ、不調和な彩度といった写真的欠陥に悩まされる画像の美的品質を高めることを目的としている。
本稿では,一般的に使用されているリタッチ操作について検討し,これらの画素非依存演算が多層パーセプトロン(MLP)によって近似あるいは定式化可能であることを数学的に確認する。
我々は,効率的なグローバル画像リタッチのための非常に軽量なフレームワークであるSequential Retouching Network (CSRNet)を提案する。
論文 参考訳(メタデータ) (2020-09-22T08:32:04Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Supervised and Unsupervised Learning of Parameterized Color Enhancement [112.88623543850224]
我々は、教師なし学習と教師なし学習の両方を用いて、画像翻訳タスクとしての色強調の問題に取り組む。
我々は,MIT-Adobe FiveKベンチマークにおいて,教師付き(ペアデータ)と教師なし(ペアデータ)の2つの画像強調手法と比較して,最先端の結果が得られた。
20世紀初頭の写真や暗黒ビデオフレームに応用することで,本手法の一般化能力を示す。
論文 参考訳(メタデータ) (2019-12-30T13:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。