論文の概要: Visual Pre-Training on Unlabeled Images using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.11967v1
- Date: Fri, 13 Jun 2025 17:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.894123
- Title: Visual Pre-Training on Unlabeled Images using Reinforcement Learning
- Title(参考訳): 強化学習を用いたラベルなし画像の視覚的事前学習
- Authors: Dibya Ghosh, Sergey Levine,
- Abstract要約: 強化学習(RL)において、価値に基づくアルゴリズムは、それぞれの観察と状態とそれから到達しそうな報酬を関連付けることを学習する。
この定式化に類似した自己教師付き画像事前学習法が多数存在することが観察された。
RL問題として,Webクロールやビデオフレームなどのラベル付けされていない画像データに事前学習を直接キャストする手法を提案する。
- 参考スコア(独自算出の注目度): 62.66487459225838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), value-based algorithms learn to associate each observation with the states and rewards that are likely to be reached from it. We observe that many self-supervised image pre-training methods bear similarity to this formulation: learning features that associate crops of images with those of nearby views, e.g., by taking a different crop or color augmentation. In this paper, we complete this analogy and explore a method that directly casts pre-training on unlabeled image data like web crawls and video frames as an RL problem. We train a general value function in a dynamical system where an agent transforms an image by changing the view or adding image augmentations. Learning in this way resembles crop-consistency self-supervision, but through the reward function, offers a simple lever to shape feature learning using curated images or weakly labeled captions when they exist. Our experiments demonstrate improved representations when training on unlabeled images in the wild, including video data like EpicKitchens, scene data like COCO, and web-crawl data like CC12M.
- Abstract(参考訳): 強化学習(RL)において、価値に基づくアルゴリズムは、それぞれの観察と状態とそれから到達しそうな報酬を関連付けることを学習する。
多くの自己監督型画像事前学習法は、この定式化と類似しており、例えば、異なる作物や色の増色によって、画像の作物と近くのビューの作物を関連づける学習的特徴がある。
本稿では,Webクローリングやビデオフレームなどのラベル付き画像データに直接事前学習をキャストする手法をRL問題として検討する。
エージェントがビューを変更したり、画像拡張を加えて画像を変換する動的システムにおいて、一般的な値関数を訓練する。
この方法での学習は、作物の一貫性に類似しているが、報酬関数を通じて、キュレートされた画像や弱いラベル付きキャプションを使って特徴学習を形作るシンプルなレバーを提供する。
実験では、EpicKitchensのようなビデオデータ、COCOのようなシーンデータ、CC12Mのようなウェブクローリングデータを含む、野生の未ラベル画像のトレーニングにおける表現の改善を実証した。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Self-supervised video pretraining yields robust and more human-aligned visual representations [14.599429594703539]
一般的な表現は、画像理解タスクにおける事前ビデオ事前学習法よりもはるかに優れている。
VITO表現は、画像、ビデオ、および逆向きに訓練されたものよりも、自然および合成的な変形に対して著しく堅牢である。
これらの結果は、ビデオ事前学習は、視覚世界の統一的、堅牢で、人間と協調した表現を学習する簡単な方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-10-12T17:30:12Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - G-SimCLR : Self-Supervised Contrastive Learning with Guided Projection
via Pseudo Labelling [0.8164433158925593]
コンピュータビジョンにおいて、ディープニューラルネットワークは大量のラベル付きデータを持つ教師付き設定において、より良い性能を発揮することが明らかである。
本研究では, 温度スケールクロスエントロピー(NT-Xent)損失関数の正規化により, 同じカテゴリの画像が同じバッチにない方が有益であることを示す。
我々は、ラベルのないデータセットで訓練された復号化オートエンコーダの潜在空間表現を使用し、それらをk平均でクラスタリングして擬似ラベルを得る。
論文 参考訳(メタデータ) (2020-09-25T02:25:37Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。