論文の概要: Internet Explorer: Targeted Representation Learning on the Open Web
- arxiv url: http://arxiv.org/abs/2302.14051v2
- Date: Thu, 7 Sep 2023 01:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 17:36:22.468199
- Title: Internet Explorer: Targeted Representation Learning on the Open Web
- Title(参考訳): Internet Explorer: オープンWeb上での表現学習を目標に
- Authors: Alexander C. Li, Ellis Brown, Alexei A. Efros, Deepak Pathak
- Abstract要約: 現代のビジョンモデルは通常、大規模で静的なデータセットで事前訓練された微調整の汎用モデルに依存している。
本稿では,インターネットを動的に活用して,手作業で極めてうまく動作する小規模モデルを迅速に訓練することを提案する。
当社のアプローチはInternet Explorerと呼ばれ,Webを自己教師型の方法で探索することで,望ましいターゲットデータセットのパフォーマンス向上に寄与する関連事例を段階的に見つける。
- 参考スコア(独自算出の注目度): 121.02587846761627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision models typically rely on fine-tuning general-purpose models
pre-trained on large, static datasets. These general-purpose models only
capture the knowledge within their pre-training datasets, which are tiny,
out-of-date snapshots of the Internet -- where billions of images are uploaded
each day. We suggest an alternate approach: rather than hoping our static
datasets transfer to our desired tasks after large-scale pre-training, we
propose dynamically utilizing the Internet to quickly train a small-scale model
that does extremely well on the task at hand. Our approach, called Internet
Explorer, explores the web in a self-supervised manner to progressively find
relevant examples that improve performance on a desired target dataset. It
cycles between searching for images on the Internet with text queries,
self-supervised training on downloaded images, determining which images were
useful, and prioritizing what to search for next. We evaluate Internet Explorer
across several datasets and show that it outperforms or matches CLIP oracle
performance by using just a single GPU desktop to actively query the Internet
for 30--40 hours. Results, visualizations, and videos at
https://internet-explorer-ssl.github.io/
- Abstract(参考訳): 現代のビジョンモデルは通常、大規模で静的なデータセットで事前訓練された微調整の汎用モデルに依存している。
これらの汎用モデルは、トレーニング済みのデータセット内の知識のみをキャプチャする。これは、毎日何十億もの画像がアップロードされるインターネットの小さな最新スナップショットである。
大規模な事前トレーニングの後、我々の静的データセットが所望のタスクに転送されることを期待するのではなく、インターネットを動的に活用して、手作業で非常にうまく動作する小規模モデルを迅速に訓練することを提案する。
当社のアプローチはInternet Explorerと呼ばれ、Webを自己教師型の方法で探索し、望ましいターゲットデータセットのパフォーマンスを改善するための関連するサンプルを徐々に見つける。
インターネット上の画像検索とテキストクエリ、ダウンロードされた画像の自己教師付きトレーニング、どの画像が役に立つかの判断、次に何を探すかの優先順位付けをサイクルする。
我々はInternet Explorerを複数のデータセットで評価し、たった1つのGPUデスクトップを使用して30~40時間インターネットに問い合わせることにより、CLIPオーラクルのパフォーマンスを上回り、一致させることを示した。
結果、可視化、ビデオ: https://internet-explorer-ssl.github.io/
関連論文リスト
- Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision [4.600687314645625]
ImageNetのような大規模なデータセットで事前トレーニングされたアーキテクチャバックボーンは、一般的に機能抽出器として使用される。
本研究は、一貫したトレーニング設定下で、複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。
本研究は,異なるバックボーンの性能トレードオフと有効性について,実用的な知見を提供する。
論文 参考訳(メタデータ) (2024-06-09T02:01:25Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - FoPro: Few-Shot Guided Robust Webly-Supervised Prototypical Learning [82.75157675790553]
本稿ではFoPro表現学習法を提案する。
FoProはWebデータセットでトレーニングされており、実世界のデータセットでガイドされ、評価されている実世界の例がいくつかある。
提案手法は,3つの細粒度データセットと2つの大規模データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-12-01T12:39:03Z) - GROWN+UP: A Graph Representation Of a Webpage Network Utilizing
Pre-training [0.2538209532048866]
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に微調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入する。
我々は,Webページボイラプレートの除去とジャンル分類という,非常に異なる2つのベンチマークで複数のデータセットを用いて,事前学習したモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-03T13:37:27Z) - Towards Efficient and Data Agnostic Image Classification Training
Pipeline for Embedded Systems [0.0]
本研究は,画像分類における最新の拡張および正規化手法の見直しに重点を置いている。
各タスクにパラメータを手動で調整することなく、様々なダウンストリーム画像分類タスクにおいて合理的なパフォーマンスを実現することができる。
結果モデルは計算効率が良く、OpenVINOツールキットを使ってCPUにデプロイできる。
論文 参考訳(メタデータ) (2021-08-16T12:38:05Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。