Fugu-MT 論文翻訳(概要): Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning

論文の概要: Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning

arxiv url: http://arxiv.org/abs/2212.13563v2
Date: Wed, 27 Sep 2023 07:26:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 21:45:40.354828
Title: Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning
Title（参考訳）: 画像キャプションのためのWebcrawled Image-Textデータからの雑音認識学習
Authors: Wooyoung Kang, Jonghwan Mun, Sungjun Lee, Byungseok Roh
Abstract要約: ノイズ対応キャプション(NoC)フレームワークは、ノイズの影響を受けずに、Webクローリングされたデータ全体から豊富な知識を学習する。これは、画像テキストペアのアライメントレベルを制御信号として学習したアライメントレベル制御可能なキャプタによって実現される。ノイズ処理におけるフレームワークの有効性を詳細に分析した。
参考スコア（独自算出の注目度）: 6.101765622702223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image captioning is one of the straightforward tasks that can take advantage of large-scale web-crawled data which provides rich knowledge about the visual world for a captioning model. However, since web-crawled data contains image-text pairs that are aligned at different levels, the inherent noises (e.g., misaligned pairs) make it difficult to learn a precise captioning model. While the filtering strategy can effectively remove noisy data, it leads to a decrease in learnable knowledge and sometimes brings about a new problem of data deficiency. To take the best of both worlds, we propose a Noise-aware Captioning (NoC) framework, which learns rich knowledge from the whole web-crawled data while being less affected by the noises. This is achieved by the proposed alignment-level-controllable captioner, which is learned using alignment levels of the image-text pairs as a control signal during training. The alignment-level-conditioned training allows the model to generate high-quality captions by simply setting the control signal to the desired alignment level at inference time. An in-depth analysis shows the effectiveness of our framework in handling noise. With two tasks of zero-shot captioning and text-to-image retrieval using generated captions (i.e., self-retrieval), we also demonstrate our model can produce high-quality captions in terms of descriptiveness and distinctiveness. The code is available at \url{https://github.com/kakaobrain/noc}.
Abstract（参考訳）: 画像キャプションは、キャプションモデルに視覚世界に関する豊富な知識を提供する大規模なwebクローラーデータを活用するための簡単なタスクの1つである。しかし、Webcrawledデータには、異なるレベルで整列された画像テキストペアが含まれているため、固有のノイズ(例えば、不整合ペア)は正確なキャプションモデルを学ぶのを難しくする。フィルタリング戦略はノイズの多いデータを効果的に除去することができるが、学習可能な知識が減少し、時にデータ不足という新たな問題を引き起こす。両世界を最大限に活用するために,ノイズの影響を少なくしながら,Webクローリングデータ全体から豊富な知識を学習するノイズ対応キャプション(NoC)フレームワークを提案する。これは、トレーニング中に画像テキストペアのアライメントレベルを制御信号として学習するアライメントレベル制御型キャプションによって実現される。アライメントレベル条件付きトレーニングでは、制御信号を推論時に所望のアライメントレベルに設定することで、高品質なキャプションを生成することができる。ノイズ処理におけるフレームワークの有効性を詳細に分析した。生成キャプションを用いたゼロショットキャプションとテキストから画像への検索の2つのタスク(すなわち自己リトライ)により,記述性と識別性の観点から高品質なキャプションを生成できることを実証した。コードは \url{https://github.com/kakaobrain/noc} で入手できる。

関連論文リスト

ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。 DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文参考訳（メタデータ） (2023-07-19T17:47:12Z)
Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文参考訳（メタデータ） (2023-04-04T19:11:05Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。 1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文参考訳（メタデータ） (2023-01-26T15:25:43Z)
NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文参考訳（メタデータ） (2022-12-14T08:19:30Z)
Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文参考訳（メタデータ） (2022-11-13T00:09:36Z)
Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文参考訳（メタデータ） (2021-11-29T11:01:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。