Fugu-MT 論文翻訳(概要): Vision Learners Meet Web Image-Text Pairs

論文の概要: Vision Learners Meet Web Image-Text Pairs

arxiv url: http://arxiv.org/abs/2301.07088v3
Date: Mon, 5 Aug 2024 15:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 00:54:45.377041
Title: Vision Learners Meet Web Image-Text Pairs
Title（参考訳）: 視覚学習者がWebイメージテキストペアを語る
Authors: Bingchen Zhao, Quan Cui, Hao Wu, Osamu Yoshie, Cheng Yang, Oisin Mac Aodha,
Abstract要約: 本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
参考スコア（独自算出の注目度）: 32.36188289972377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many self-supervised learning methods are pre-trained on the well-curated ImageNet-1K dataset. In this work, given the excellent scalability of web data, we consider self-supervised pre-training on noisy web sourced image-text paired data. First, we conduct a benchmark study of representative self-supervised pre-training methods on large-scale web data in a like-for-like setting. We compare a range of methods, including single-modal ones that use masked training objectives and multi-modal ones that use image-text constrastive training. We observe that existing multi-modal methods do not outperform their single-modal counterparts on vision transfer learning tasks. We derive an information-theoretical view to explain these benchmark results, which provides insight into how to design a novel vision learner. Inspired by this insight, we present a new visual representation pre-training method, MUlti-modal Generator~(MUG), that learns from scalable web sourced image-text data. MUG achieves state-of-the-art transfer performance on a variety of tasks and demonstrates promising scaling properties. Pre-trained models and code will be made public upon acceptance.
Abstract（参考訳）: 多くの自己教師付き学習手法が、よく計算されたImageNet-1Kデータセットで事前訓練されている。本研究では、Webデータの優れたスケーラビリティを考えると、ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。まず,大規模Webデータを対象とした自己指導型事前学習手法のベンチマーク研究を行う。マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。既存のマルチモーダル手法は、視覚伝達学習タスクにおいて、単独モーダル手法よりも優れていないことを観察する。我々はこれらのベンチマーク結果を説明するために情報理論的な視点を導出し、新しい視覚学習者の設計方法に関する洞察を提供する。この知見に触発されて、スケーラブルなWebソース画像テキストデータから学習する新しい視覚表現事前学習手法MUlti-modal Generator~(MUG)を提案する。 MUGは様々なタスクで最先端の転送性能を達成し、有望なスケーリング特性を示す。事前訓練されたモデルとコードは受理時に公開される。

関連論文リスト

Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文参考訳（メタデータ） (2025-12-05T10:02:38Z)
Should VLMs be Pre-trained with Image Data? [54.50406730361859]
画像とテキストデータの混在による事前学習により、モデルが視覚言語タスクでより良いパフォーマンスを発揮できることがわかった。平均6つの多様なタスクにおいて、1Bモデルに対して、事前学習による視覚トークンの80%を導入すると、完全に事前訓練されたモデルに視覚トークンを導入するよりも平均2%改善されることがわかった。
論文参考訳（メタデータ） (2025-03-10T17:58:19Z)
Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文参考訳（メタデータ） (2024-06-11T17:59:35Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文参考訳（メタデータ） (2022-10-04T16:56:22Z)
VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文参考訳（メタデータ） (2022-06-02T16:14:19Z)
Self-Supervised Visual Representation Learning Using Lightweight Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文参考訳（メタデータ） (2021-10-21T14:13:10Z)
TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。 TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-03T12:36:01Z)
Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文参考訳（メタデータ） (2021-04-26T19:23:36Z)
Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文参考訳（メタデータ） (2020-02-27T16:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。