論文の概要: Noise-aware Learning from Web-crawled Image-Text Data for Image
Captioning
- arxiv url: http://arxiv.org/abs/2212.13563v1
- Date: Tue, 27 Dec 2022 17:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 14:25:15.444457
- Title: Noise-aware Learning from Web-crawled Image-Text Data for Image
Captioning
- Title(参考訳): 画像キャプションのためのWebcrawled Image-Textデータからの雑音認識学習
- Authors: Wooyoung Kang, Jonghwan Mun, Sungjun Lee, Byungseok Roh
- Abstract要約: 画像キャプションは、大規模なWebcrawledデータを活用するための簡単なタスクの1つです。
本稿では,ノイズの影響を少なくしながら,Webクローリングデータ全体から豊富な知識を学習する雑音認識学習フレームワークを提案する。
これは、画像とテキストのペアのアライメントレベルを用いて学習した品質制御可能なモデルによって実現される。
- 参考スコア(独自算出の注目度): 9.206097404022016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is one of the straightforward tasks that can take advantage
of large-scale web-crawled data which provides rich knowledge about the visual
world for a captioning model. However, since web-crawled data contains
image-text pairs that are aligned at different levels, the inherent noises
(e.g., misaligned pairs) make it difficult to learn a precise captioning model.
While the filtering strategy can effectively remove noisy data, however, it
leads to a decrease in learnable knowledge and sometimes brings about a new
problem of data deficiency. To take the best of both worlds, we propose a
noise-aware learning framework, which learns rich knowledge from the whole
web-crawled data while being less affected by the noises. This is achieved by
the proposed quality controllable model, which is learned using alignment
levels of the image-text pairs as an additional control signal during training.
The alignment-conditioned training allows the model to generate high-quality
captions of well-aligned by simply setting the control signal to desired
alignment level at inference time. Through in-depth analysis, we show that our
controllable captioning model is effective in handling noise. In addition, with
two tasks of zero-shot captioning and text-to-image retrieval using generated
captions (i.e., self-retrieval), we also demonstrate our model can produce
high-quality captions in terms of descriptiveness and distinctiveness. Code is
available at \url{https://github.com/kakaobrain/noc}.
- Abstract(参考訳): 画像キャプションは、キャプションモデルに視覚世界に関する豊富な知識を提供する大規模なwebクローラーデータを活用するための簡単なタスクの1つである。
しかし、Webcrawledデータには、異なるレベルで整列された画像テキストペアが含まれているため、固有のノイズ(例えば、不整合ペア)は正確なキャプションモデルを学ぶのを難しくする。
しかし、フィルタリング戦略はノイズの多いデータを効果的に除去することができるが、学習可能な知識が減少し、時にデータ不足の新たな問題を引き起こす。
両世界の長所を生かし,ノイズの影響を受けないまま,ウェブクローリングされたデータ全体から豊富な知識を学習する雑音認識学習フレームワークを提案する。
これは、画像テキストペアのアライメントレベルをトレーニング中に追加の制御信号として使用して学習する品質制御可能モデルによって実現される。
アライメント条件付きトレーニングでは、制御信号を推論時に所望のアライメントレベルに設定するだけで、高品質なアライメントキャプションを生成することができる。
詳細な分析を通じて,制御可能なキャプションモデルが雑音処理に有効であることを示す。
また,生成キャプションを用いたゼロショットキャプションとテキストから画像への検索という2つのタスクにより,記述性と特徴性の観点から高品質なキャプションを生成できることを実証した。
コードは \url{https://github.com/kakaobrain/noc} で入手できる。
関連論文リスト
- ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。