論文の概要: Denoising Large-Scale Image Captioning from Alt-text Data using Content
Selection Models
- arxiv url: http://arxiv.org/abs/2009.05175v2
- Date: Fri, 16 Apr 2021 23:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 02:43:44.704986
- Title: Denoising Large-Scale Image Captioning from Alt-text Data using Content
Selection Models
- Title(参考訳): コンテンツ選択モデルを用いたAltテキストデータからの大規模画像キャプチャ
- Authors: Khyathi Raghavi Chandu, Piyush Sharma, Soravit Changpinyo, Ashish
Thapliyal, Radu Soricut
- Abstract要約: コンテンツワードをスケルトンとして選択することは、改良された発音されたキャプションを生成するのに役立ちます。
また、予測された英語の骨格をさらに言語横断的に活用し、非英語の字幕を生成することも示している。
また、骨格に基づく予測により、長さ、内容、性別表現などのキャプション特性をよりよく制御できることを示す。
- 参考スコア(独自算出の注目度): 25.86785379429413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large-scale image captioning (IC) models demands access to a rich
and diverse set of training examples, gathered from the wild, often from noisy
alt-text data. However, recent modeling approaches to IC often fall short in
terms of performance in this case, because they assume a clean annotated
dataset (as opposed to the noisier alt-text--based annotations), and employ an
end-to-end generation approach, which often lacks both controllability and
interpretability. We address these problems by breaking down the task into two
simpler, more controllable tasks -- skeleton prediction and skeleton-based
caption generation. Specifically, we show that selecting content words as
skeletons} helps in generating improved and denoised captions when leveraging
rich yet noisy alt-text--based uncurated datasets. We also show that the
predicted English skeletons can be further cross-lingually leveraged to
generate non-English captions, and present experimental results covering
caption generation in French, Italian, German, Spanish and Hindi. We also show
that skeleton-based prediction allows for better control of certain caption
properties, such as length, content, and gender expression, providing a handle
to perform human-in-the-loop semi-automatic corrections.
- Abstract(参考訳): 大規模画像キャプション(ic)モデルのトレーニングでは、ノイズの多いaltテキストデータから収集した、リッチで多様なトレーニング例にアクセスする必要がある。
しかし、最近のICのモデリングアプローチは、クリーンなアノテーション付きデータセット(ノイズの多いalt-textベースのアノテーションとは対照的に)を仮定し、制御性と解釈性の両方を欠くエンドツーエンドのアプローチを採用するため、このケースではパフォーマンス面で不足することが多い。
私たちはこれらの問題を、スケルトン予測とスケルトンに基づくキャプション生成という、よりシンプルで制御可能な2つのタスクに分割することで解決します。
具体的には、リッチでノイズの多いalt-text-based uncuratedデータセットを活用すると、コンテンツワードをスケルトンとして選択することが、改良されたキャプションを生成するのに役立つことを示す。
また, 予測された英語の骨格は, フランス語, イタリア語, ドイツ語, スペイン語, ヒンディー語でキャプションを生成するために, より言語的に活用できることを示す。
また、スケルトンに基づく予測により、長さ、内容、性別表現などのキャプション特性をよりよく制御でき、ループ内半自動修正を行うためのハンドルを提供する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage [23.71195344840051]
画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T06:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。