論文の概要: Neglected Free Lunch; Learning Image Classifiers Using Annotation
Byproducts
- arxiv url: http://arxiv.org/abs/2303.17595v2
- Date: Tue, 4 Apr 2023 10:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 17:22:38.231797
- Title: Neglected Free Lunch; Learning Image Classifiers Using Annotation
Byproducts
- Title(参考訳): 無視自由ランチ : 注釈副産物を用いた画像分類器の学習
- Authors: Dongyoon Han, Junsuk Choe, Seonghyeok Chun, John Joon Young Chung,
Minsuk Chang, Sangdoo Yun, Jean Y. Song, Seong Joon Oh
- Abstract要約: 画像分類器の教師付き学習は、画像と対応するラベル(X,Y)のペアを通して、人間の知識をパラメトリックモデルに蒸留する
このシンプルで広く使われている人間の知識の表現は、アノテーションの手順から豊富な補助情報を無視していると論じる。
我々は、アノテーション副産物を用いたトレーニングモデルの新たなパラダイムを、アノテーション副産物(LUAB)を用いた学習として言及する。
- 参考スコア(独自算出の注目度): 43.76258241948858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised learning of image classifiers distills human knowledge into a
parametric model through pairs of images and corresponding labels (X,Y). We
argue that this simple and widely used representation of human knowledge
neglects rich auxiliary information from the annotation procedure, such as the
time-series of mouse traces and clicks left after image selection. Our insight
is that such annotation byproducts Z provide approximate human attention that
weakly guides the model to focus on the foreground cues, reducing spurious
correlations and discouraging shortcut learning. To verify this, we create
ImageNet-AB and COCO-AB. They are ImageNet and COCO training sets enriched with
sample-wise annotation byproducts, collected by replicating the respective
original annotation tasks. We refer to the new paradigm of training models with
annotation byproducts as learning using annotation byproducts (LUAB). We show
that a simple multitask loss for regressing Z together with Y already improves
the generalisability and robustness of the learned models. Compared to the
original supervised learning, LUAB does not require extra annotation costs.
ImageNet-AB and COCO-AB are at https://github.com/naver-ai/NeglectedFreeLunch.
- Abstract(参考訳): 画像分類器の教師付き学習は、画像と対応するラベル(x,y)のペアを通して人間の知識をパラメトリックモデルに蒸留する。
このシンプルで広く使われている人間の知識の表現は、画像選択後のマウスのトレースやクリックの時系列などのアノテーション手順からの豊富な補助情報を無視していると論じる。
我々の洞察では、このようなアノテーション副産物Zは、モデルが前景の手がかりに集中するように弱め、素早い相関を減らし、ショートカット学習を阻害するおよそ人間の注意を与える。
これを検証するために、ImageNet-ABとCOCO-ABを作成します。
これらはImageNetとCOCOトレーニングセットで、サンプル単位のアノテーション副産物が豊富で、それぞれのオリジナルのアノテーションタスクを複製して収集される。
アノテーション副産物を用いたトレーニングモデルの新たなパラダイムを,アノテーション副産物を用いた学習(luab)と呼んでいる。
y とともに z をレグレッシブする単純なマルチタスクロスにより,学習モデルの一般化性とロバスト性が向上することを示す。
オリジナルの教師付き学習と比較すると、LUABは追加のアノテーションコストを必要としない。
ImageNet-ABとCOCO-ABはhttps://github.com/naver-ai/NeglectedFreeLunchにある。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Deep Active Learning for Joint Classification & Segmentation with Weak
Annotator [22.271760669551817]
クラスアクティベーションマップ(CAM)のようなCNNの可視化と解釈手法は、一般的に、クラス予測に関連する画像領域を強調するために使用される。
本稿では,画素レベルのアノテーションを段階的に統合する能動的学習フレームワークを提案する。
提案手法は, ランダムなサンプル選択を用いることで, 最先端のCAMやAL手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2020-10-10T03:25:54Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。