論文の概要: Universal Captioner: Long-Tail Vision-and-Language Model Training
through Content-Style Separation
- arxiv url: http://arxiv.org/abs/2111.12727v1
- Date: Wed, 24 Nov 2021 19:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 14:22:51.191972
- Title: Universal Captioner: Long-Tail Vision-and-Language Model Training
through Content-Style Separation
- Title(参考訳): ユニバーサルキャピタ:コンテンツスタイル分離による長距離視覚・言語モデルトレーニング
- Authors: Marcella Cornia, Lorenzo Baraldi, Giuseppe Fiameni, Rita Cucchiara
- Abstract要約: 我々は,Webスケールで自動収集されたデータセットをトレーニングすることで,Wild の概念を用いたヒューマンライクな記述を生成するという課題に対処する。
我々のモデルは、キーワードやスタイリスティックトークンを使って、コンテンツとスタイルを区別する。
実験により,本モデルでは,キャプションの品質とロングテール概念を記述できる能力において,既存の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 54.94682858474711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While captioning models have obtained compelling results in describing
natural images, they still do not cover the entire long-tail distribution of
real-world concepts. In this paper, we address the task of generating
human-like descriptions with in-the-wild concepts by training on web-scale
automatically collected datasets. To this end, we propose a model which can
exploit noisy image-caption pairs while maintaining the descriptive style of
traditional human-annotated datasets like COCO. Our model separates content
from style through the usage of keywords and stylistic tokens, employing a
single objective of prompt language modeling and being simpler than other
recent proposals. Experimentally, our model consistently outperforms existing
methods in terms of caption quality and capability of describing long-tail
concepts, also in zero-shot settings. According to the CIDEr metric, we obtain
a new state of the art on both COCO and nocaps when using external data.
- Abstract(参考訳): キャプションモデルは自然画像の記述において説得力のある結果を得たが、実世界の概念のロングテール分布全体をカバーしていない。
本稿では,Webスケールで自動収集されたデータセットをトレーニングすることで,Wild の概念による人間的な記述を生成するタスクに対処する。
そこで本研究では,COCOのような従来の人間アノテーションデータセットの記述スタイルを維持しつつ,ノイズの多い画像キャプチャペアを活用可能なモデルを提案する。
私たちのモデルは、キーワードとスタイルトークンの使用を通じて、コンテンツとスタイルを分離し、プロンプト言語モデリングの1つの目的を採用し、他の最近の提案よりもシンプルである。
実験により,本モデルは,ゼロショット設定においても,キャプション品質とロングテール概念の記述能力において,既存の手法を一貫して上回っている。
CIDEr 測定値によると,外部データを用いた場合,COCO とnocaps の両方で新たな技術状態が得られる。
関連論文リスト
- Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。
標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。
画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文 参考訳(メタデータ) (2024-03-02T20:36:10Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。