論文の概要: Towards Accurate Text-based Image Captioning with Content Diversity
Exploration
- arxiv url: http://arxiv.org/abs/2105.03236v1
- Date: Fri, 23 Apr 2021 08:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 08:34:31.310778
- Title: Towards Accurate Text-based Image Captioning with Content Diversity
Exploration
- Title(参考訳): コンテンツ多様性探索によるテキスト画像の精度向上に向けて
- Authors: Guanghui Xu, Shuaicheng Niu, Mingkui Tan, Yucheng Luo, Qing Du, Qi Wu
- Abstract要約: テキストによる画像の読み書きを目的としたテキストベースの画像キャプション(TextCap)は、マシンが詳細で複雑なシーン環境を理解する上で不可欠である。
既存の手法では、従来の画像キャプション手法を拡張して、単一のグローバルキャプションで画像全体のシーンを記述することに注力している。
複雑なテキストと視覚情報は、1つのキャプション内でうまく記述できないため、これは不可能です。
- 参考スコア(独自算出の注目度): 46.061291298616354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based image captioning (TextCap) which aims to read and reason images
with texts is crucial for a machine to understand a detailed and complex scene
environment, considering that texts are omnipresent in daily life. This task,
however, is very challenging because an image often contains complex texts and
visual information that is hard to be described comprehensively. Existing
methods attempt to extend the traditional image captioning methods to solve
this task, which focus on describing the overall scene of images by one global
caption. This is infeasible because the complex text and visual information
cannot be described well within one caption. To resolve this difficulty, we
seek to generate multiple captions that accurately describe different parts of
an image in detail. To achieve this purpose, there are three key challenges: 1)
it is hard to decide which parts of the texts of images to copy or paraphrase;
2) it is non-trivial to capture the complex relationship between diverse texts
in an image; 3) how to generate multiple captions with diverse content is still
an open problem. To conquer these, we propose a novel Anchor-Captioner method.
Specifically, we first find the important tokens which are supposed to be paid
more attention to and consider them as anchors. Then, for each chosen anchor,
we group its relevant texts to construct the corresponding anchor-centred graph
(ACG). Last, based on different ACGs, we conduct multi-view caption generation
to improve the content diversity of generated captions. Experimental results
show that our method not only achieves SOTA performance but also generates
diverse captions to describe images.
- Abstract(参考訳): テキストによる画像の読み書きを目的としたテキストキャプション(textcap)は,テキストが日常的に広く見られることを考慮すると,詳細な複雑なシーン環境を理解する上で重要である。
しかし、画像には複雑なテキストと視覚情報を包括的に記述することが難しいため、この作業は非常に困難である。
既存の手法では、従来の画像キャプション手法を拡張して、単一のグローバルキャプションで画像全体のシーンを記述することに注力している。
複雑なテキストと視覚情報は1つのキャプション内でうまく記述できないため、これは実現不可能である。
この難易度を解消するために,画像の異なる部分を詳細に記述する複数のキャプションを作成した。
この目的を達成するには、3つの重要な課題がある: 1) 画像のテキストのどの部分をコピーするか、あるいはパラフレーズするかを決定するのは難しい; 2) 画像中の様々なテキスト間の複雑な関係を捉えることは非自明である; 3) 多様なコンテンツを持つ複数のキャプションを生成する方法はまだ未解決の問題である。
これらを克服するために,新しいアンカーキャピタ法を提案する。
具体的には、まず注意を払うべき重要なトークンを見つけ、それらをアンカーと見なす。
次に、選択されたアンカーごとに関連するテキストをグループ化し、対応するアンカー中心グラフ(acg)を構築する。
最後に、異なるaggに基づいて多視点キャプション生成を行い、生成キャプションの内容の多様性を向上させる。
実験結果から,本手法はSOTAの性能を達成するだけでなく,画像記述のための多様なキャプションを生成することがわかった。
関連論文リスト
- TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Generating image captions with external encyclopedic knowledge [1.452875650827562]
我々は、画像固有の百科事典データを広範囲に活用するエンドツーエンドのキャプション生成システムを構築した。
われわれのアプローチは、画像位置を用いて、外部知識ベースで関連するオープンドメインの事実を識別する新しい方法を含む。
我々のシステムは、自然に生成された知識に富んだキャプションを持つ新しいデータセットで訓練され、テストされている。
論文 参考訳(メタデータ) (2022-10-10T16:09:21Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and
Unpaired Text-based Image Captioning [46.4308182215488]
テキストベースの画像は、豊富で複雑なマルチモーダルリレーショナルコンテンツを直感的に含む。
マルチモーダル relAtional Graph adversarIal inferenCe framework for various and unpaired TextCap。
画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。
論文 参考訳(メタデータ) (2021-12-13T11:00:49Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。