論文の概要: CapOnImage: Context-driven Dense-Captioning on Image
- arxiv url: http://arxiv.org/abs/2204.12974v1
- Date: Wed, 27 Apr 2022 14:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:15:41.345420
- Title: CapOnImage: Context-driven Dense-Captioning on Image
- Title(参考訳): CapOnImage: コンテキスト駆動のDense-Captioning on Image
- Authors: Yiqi Gao, Xinglin Hou, Yuanmeng Zhang, Tiezheng Ge, Yuning Jiang, Peng
Wang
- Abstract要約: 画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
- 参考スコア(独自算出の注目度): 13.604173177437536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image captioning systems are dedicated to generating narrative
captions for images, which are spatially detached from the image in
presentation. However, texts can also be used as decorations on the image to
highlight the key points and increase the attractiveness of images. In this
work, we introduce a new task called captioning on image (CapOnImage), which
aims to generate dense captions at different locations of the image based on
contextual information. To fully exploit the surrounding visual context to
generate the most suitable caption for each location, we propose a multi-modal
pre-training model with multi-level pre-training tasks that progressively learn
the correspondence between texts and image locations from easy to difficult.
Since the model may generate redundant captions for nearby locations, we
further enhance the location embedding with neighbor locations as context. For
this new task, we also introduce a large-scale benchmark called CapOnImage2M,
which contains 2.1 million product images, each with an average of 4.8
spatially localized captions. Compared with other image captioning model
variants, our model achieves the best results in both captioning accuracy and
diversity aspects. We will make code and datasets public to facilitate future
research.
- Abstract(参考訳): 既存の画像キャプションシステムは、プレゼンテーション中の画像から空間的に切り離された画像の物語キャプションを生成することを目的としている。
しかし、テキストは、キーポイントを強調し、画像の魅力を高めるために、画像の装飾としても使用できる。
本研究では,画像の異なる場所で,文脈情報に基づいて密なキャプションを生成することを目的とした,キャプション・オン・イメージ(caponimage)と呼ばれる新しいタスクを提案する。
周囲の視覚的コンテキストをフル活用し,各場所に適したキャプションを生成するために,テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを用いたマルチモーダル事前学習モデルを提案する。
モデルでは,近傍の場所に対する冗長なキャプションを生成できるため,近隣の場所への埋め込みをコンテキストとして拡張する。
この新しいタスクでは、CapOnImage2Mと呼ばれる大規模なベンチマークも導入しています。
他の画像キャプションモデルと比較すると,本モデルはキャプション精度と多様性の両方において最高の結果が得られる。
将来の研究を促進するために、コードとデータセットを公開します。
関連論文リスト
- Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。