Fugu-MT 論文翻訳(概要): Curriculum Learning for Data-Efficient Vision-Language Alignment

論文の概要: Curriculum Learning for Data-Efficient Vision-Language Alignment

arxiv url: http://arxiv.org/abs/2207.14525v1
Date: Fri, 29 Jul 2022 07:45:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-01 12:15:12.245980
Title: Curriculum Learning for Data-Efficient Vision-Language Alignment
Title（参考訳）: データ効率の良い視覚言語アライメントのためのカリキュラム学習
Authors: Tejas Srinivasan, Xiang Ren, Jesse Thomason
Abstract要約: コントラスト学習を用いて画像とテキストのエンコーダをスクラッチから調整するには、大量のペア画像テキストデータが必要である。我々は、より少ないペアデータを用いて、個別に事前訓練された言語と視覚表現モデルを調整することで、このニーズを緩和する。 TOnICSは、トレーニングデータの1%未満を使用しながら、下流のゼロショット画像検索においてCLIPを上回っている。
参考スコア（独自算出の注目度）: 29.95935291982015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning image and text encoders from scratch using contrastive learning requires large amounts of paired image-text data. We alleviate this need by aligning individually pre-trained language and vision representation models using a much smaller amount of paired data, augmented with a curriculum learning algorithm to learn fine-grained vision-language alignments. TOnICS (Training with Ontology-Informed Contrastive Sampling) initially samples minibatches whose image-text pairs contain a wide variety of objects to learn object-level alignment, and progressively samples minibatches where all image-text pairs contain the same object to learn finer-grained contextual alignment. Aligning pre-trained BERT and VinVL models to each other using TOnICS outperforms CLIP on downstream zero-shot image retrieval while using less than 1% as much training data.
Abstract（参考訳）: コントラスト学習を用いた画像およびテキストエンコーダのスクラッチからの調整には,大量の画像テキストデータが必要である。我々は、より少ないペアデータを用いて、個別に事前訓練された言語と視覚表現モデルを調整することで、このニーズを緩和し、カリキュラム学習アルゴリズムを用いて、きめ細かい視覚言語アライメントを学習する。 TOnICS (Training with Ontology-Informed Contrastive Smpling) は最初、オブジェクトレベルのアライメントを学習するためのさまざまなオブジェクトを含むイメージテキストペアのミニバッチをサンプリングし、すべてのイメージテキストペアが同じオブジェクトを含み、よりきめ細かいコンテキストアライメントを学習するミニバッチを徐々にサンプリングする。 TOnICSを使用して、事前トレーニングされたBERTとVinVLモデルを相互に調整することで、下流のゼロショット画像検索においてCLIPを1%未満のトレーニングデータを使用しながら、パフォーマンスが向上する。

関連論文リスト

Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-01-18T10:28:45Z)
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。 ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文参考訳（メタデータ） (2023-10-05T17:55:19Z)
ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文参考訳（メタデータ） (2023-08-19T20:18:15Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。 1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文参考訳（メタデータ） (2023-01-26T15:25:43Z)
ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文参考訳（メタデータ） (2022-10-04T16:56:22Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文参考訳（メタデータ） (2022-03-01T05:34:01Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。