論文の概要: LiT Tuned Models for Efficient Species Detection
- arxiv url: http://arxiv.org/abs/2302.10281v1
- Date: Sun, 12 Feb 2023 20:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:27:07.803636
- Title: LiT Tuned Models for Efficient Species Detection
- Title(参考訳): 効率的な種検出のためのLiT調整モデル
- Authors: Andre Nakkab, Benjamin Feuer, Chinmay Hegde
- Abstract要約: 本稿では,任意の微細な画像分類データセットを分散視覚言語事前学習に適用するための簡単な手法を提案する。
iNaturalist-2021データセットは、約270万のマクロ微生物の画像で構成されており、1万のクラスにまたがっている。
我々のモデルは(ロック画像テキストチューニングと呼ばれる新しい手法を用いて訓練)、事前訓練された凍結された視覚表現を用いて、言語アライメントだけで強力な移動学習性能が得られることを証明している。
- 参考スコア(独自算出の注目度): 22.3395465641384
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in training vision-language models have demonstrated
unprecedented robustness and transfer learning effectiveness; however, standard
computer vision datasets are image-only, and therefore not well adapted to such
training methods. Our paper introduces a simple methodology for adapting any
fine-grained image classification dataset for distributed vision-language
pretraining. We implement this methodology on the challenging iNaturalist-2021
dataset, comprised of approximately 2.7 million images of macro-organisms
across 10,000 classes, and achieve a new state-of-the art model in terms of
zero-shot classification accuracy. Somewhat surprisingly, our model (trained
using a new method called locked-image text tuning) uses a pre-trained, frozen
vision representation, proving that language alignment alone can attain strong
transfer learning performance, even on fractious, long-tailed datasets. Our
approach opens the door for utilizing high quality vision-language pretrained
models in agriculturally relevant applications involving species detection.
- Abstract(参考訳): 近年の視覚言語モデルの訓練は、前例のない堅牢性と伝達学習の有効性を示したが、標準的なコンピュータビジョンデータセットは画像のみであり、そのためそのような訓練方法には適していない。
本稿では,分散視覚言語事前学習のための細粒度画像分類データセットを適用するための簡易な手法を提案する。
この手法を1万クラスにまたがる約270万枚のマクロ組織画像からなる挑戦的なinaturalist-2021データセットに実装し,ゼロショット分類精度の観点から新たな最先端技術モデルを実現する。
驚くべきことに、我々のモデル(ロックイメージテキストチューニングと呼ばれる新しい手法を用いてトレーニングされた)は、事前訓練された凍結された視覚表現を使用し、言語アライメントだけで、フラクチャリで長い尾のデータセットでさえ、強力なトランスファー学習性能を達成できることを証明する。
本手法は, 高品質な視覚言語事前学習モデルを, 種検出に関わる農業関連応用に活用するための扉を開く。
関連論文リスト
- Modeling Collaborator: Enabling Subjective Vision Classification With
Minimal Human Effort via LLM Tool-Use [14.601182512709068]
本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。
当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。
トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-05T03:34:11Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。