論文の概要: Alleviating Noisy Data in Image Captioning with Cooperative Distillation
- arxiv url: http://arxiv.org/abs/2012.11691v1
- Date: Mon, 21 Dec 2020 21:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 08:15:30.970675
- Title: Alleviating Noisy Data in Image Captioning with Cooperative Distillation
- Title(参考訳): 協調蒸留による画像キャプションにおけるノイズ低減
- Authors: Pierre Dognin, Igor Melnyk, Youssef Mroueh, Inkit Padhi, Mattia
Rigotti, Jarret Ross, Yair Schiff
- Abstract要約: クリーンなデータセットとGoogle Conceptual Captionsデータセット(GCC)のWebスケール自動抽出キャプションを組み合わせた新しい手法を提案する。
GCCはイメージの記述が悪いが、サイズが豊富であり、したがってより表現力のあるキャプションをもたらす豊富な語彙を提供する。
- 参考スコア(独自算出の注目度): 27.623398746616026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning systems have made substantial progress, largely due to the
availability of curated datasets like Microsoft COCO or Vizwiz that have
accurate descriptions of their corresponding images. Unfortunately, scarce
availability of such cleanly labeled data results in trained algorithms
producing captions that can be terse and idiosyncratically specific to details
in the image. We propose a new technique, cooperative distillation that
combines clean curated datasets with the web-scale automatically extracted
captions of the Google Conceptual Captions dataset (GCC), which can have poor
descriptions of images, but is abundant in size and therefore provides a rich
vocabulary resulting in more expressive captions.
- Abstract(参考訳): 画像キャプションシステムは、Microsoft COCOやVizwizのような、対応するイメージの正確な記述を持つキュレートされたデータセットが利用可能であることから、大きく進歩している。
残念ながら、このようなきれいにラベル付けされたデータが利用可能でないと、訓練されたアルゴリズムは、画像の詳細に精細で慣用的に特定できるキャプションを生成することになる。
本稿では,クリーンキュレートされたデータセットとgoogle concept captions dataset (gcc) のキャプションを自動抽出した web スケールのキャプションを組み合わせた,画像の記述が乏しいが大きさが豊富で,より表現力に富んだキャプションを生成する新しい技術を提案する。
関連論文リスト
- COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation [38.09277249986138]
COCONut-PanCapデータセットは、細粒度で領域レベルのキャプションをパン光学セグメンテーションマスクに格納する。
COCONut-PanCapは、画像理解のための視覚言語モデルのトレーニングの改善と、テキスト・ツー・イメージタスクのための生成モデルをサポートする。
論文 参考訳(メタデータ) (2025-02-04T18:59:46Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Retrieval-augmented Image Captioning [15.266569206458648]
本稿では,入力画像とデータストアから検索したキャプションの集合が与えられた文を生成する画像キャプションに新たなアプローチを提案する。
我々のモデルにおけるエンコーダは、事前訓練されたV&L BERTを用いて、画像と検索されたキャプションを共同で処理する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダを生成タスクに利用することに貢献している。
論文 参考訳(メタデータ) (2023-02-16T12:54:13Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Noise-aware Learning from Web-crawled Image-Text Data for Image
Captioning [6.101765622702223]
ノイズ対応キャプション(NoC)フレームワークは、ノイズの影響を受けずに、Webクローリングされたデータ全体から豊富な知識を学習する。
これは、画像テキストペアのアライメントレベルを制御信号として学習したアライメントレベル制御可能なキャプタによって実現される。
ノイズ処理におけるフレームワークの有効性を詳細に分析した。
論文 参考訳(メタデータ) (2022-12-27T17:33:40Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。