論文の概要: "Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning
- arxiv url: http://arxiv.org/abs/2306.00931v1
- Date: Thu, 1 Jun 2023 17:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:07:53.268308
- Title: "Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning
- Title(参考訳): 「文脈から引用しない」:文脈支援画像キャプションのための統一視覚言語事前学習
- Authors: Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Niyati Chhaya, Sumit
Shekhar
- Abstract要約: 我々は,One For All(OFA)モデルに基づく新しい統合ビジョンランゲージ(VL)モデルを提案する。
我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。
本システムは,ベンチマークニュース画像キャプションデータセットにおいて,最大8.34CIDErのスコアを向上し,最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 40.01197694624958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Well-formed context aware image captions and tags in enterprise content such
as marketing material are critical to ensure their brand presence and content
recall. Manual creation and updates to ensure the same is non trivial given the
scale and the tedium towards this task. We propose a new unified
Vision-Language (VL) model based on the One For All (OFA) model, with a focus
on context-assisted image captioning where the caption is generated based on
both the image and its context. Our approach aims to overcome the
context-independent (image and text are treated independently) nature of the
existing approaches. We exploit context by pretraining our model with datasets
of three tasks: news image captioning where the news article is the context,
contextual visual entailment, and keyword extraction from the context. The
second pretraining task is a new VL task, and we construct and release two
datasets for the task with 1.1M and 2.2K data instances. Our system achieves
state-of-the-art results with an improvement of up to 8.34 CIDEr score on the
benchmark news image captioning datasets. To the best of our knowledge, ours is
the first effort at incorporating contextual information in pretraining the
models for the VL tasks.
- Abstract(参考訳): マーケティング材料などの企業コンテンツにおける画像キャプションやタグは、ブランドの存在とコンテンツのリコールを保証するために重要である。
このタスクに対するスケールとテリウムを考えると、同じことを保証するための手動作成とアップデートは簡単ではない。
そこで我々は,One For All(OFA)モデルに基づく新しい統合視覚言語(VL)モデルを提案する。
我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。
我々は,ニュース記事がコンテキストである場所のニュース画像キャプション,コンテキストからのキーワード抽出という,3つのタスクのデータセットでモデルを事前訓練することで,コンテキストを活用する。
第2の事前訓練タスクは、新しいVLタスクであり、1.1Mと2.2Kのデータインスタンスを持つタスクのための2つのデータセットを構築し、リリースする。
提案システムは,ベンチマーク画像キャプションデータセット上で8.34CIDErのスコアを向上し,最先端の結果を達成している。
我々の知る限りでは、VLタスクのモデルの事前トレーニングに文脈情報を取り入れる最初の取り組みである。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis [6.066100464517522]
我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。
提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。
また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
論文 参考訳(メタデータ) (2024-04-15T21:19:10Z) - ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions [6.066100464517522]
ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純で直接記述的なキャプションを使用しない。
我々は、さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチした。
翻訳学習のような手法は抽象的なキャプションの理解において限られた成功を収めるが、コンテンツと文脈の特徴の関係を一貫して学習することができないことを示す。
論文 参考訳(メタデータ) (2023-01-05T17:19:01Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。