論文の概要: DEVICE: DEpth and VIsual ConcEpts Aware Transformer for TextCaps
- arxiv url: http://arxiv.org/abs/2302.01540v1
- Date: Fri, 3 Feb 2023 04:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:22:16.899491
- Title: DEVICE: DEpth and VIsual ConcEpts Aware Transformer for TextCaps
- Title(参考訳): デバイス:TextCaps用のDeepthおよびVisual ConcEptsAware Transformer
- Authors: Dongsheng Xu, Qingbao Huang, Yi Cai
- Abstract要約: テキストキャプチャのためのDEVICE(Depth and VIsual ConcEpts Aware Transformer)を提案する。
我々の装置は、より包括的にシーンを一般化し、記述された視覚的実体の精度を高めることができる。
- 参考スコア(独自算出の注目度): 10.87327544629769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based image captioning is an important but under-explored task, aiming
to generate descriptions containing visual objects and scene text. Recent
studies have made encouraging progress, but they are still suffering from a
lack of overall understanding of scenes and generating inaccurate captions. One
possible reason is that current studies mainly focus on constructing the
plane-level geometric relationship of scene text without depth information.
This leads to insufficient scene text relational reasoning so that models may
describe scene text inaccurately. The other possible reason is that existing
methods fail to generate fine-grained descriptions of some visual objects. In
addition, they may ignore essential visual objects, leading to the scene text
belonging to these ignored objects not being utilized. To address the above
issues, we propose a DEpth and VIsual ConcEpts Aware Transformer (DEVICE) for
TextCaps. Concretely, to construct three-dimensional geometric relations, we
introduce depth information and propose a depth-enhanced feature updating
module to ameliorate OCR token features. To generate more precise and
comprehensive captions, we introduce semantic features of detected visual
object concepts as auxiliary information. Our DEVICE is capable of generalizing
scenes more comprehensively and boosting the accuracy of described visual
entities. Sufficient experiments demonstrate the effectiveness of our proposed
DEVICE, which outperforms state-of-the-art models on the TextCaps test set. Our
code will be publicly available.
- Abstract(参考訳): テキストベースの画像キャプションは重要だが未探索の課題であり、視覚オブジェクトやシーンテキストを含む記述を生成することを目的としている。
近年の研究は進歩を遂げているが、それでもシーンの総合的な理解の欠如と不正確なキャプションの生成に苦しんでいる。
一つの考えられる理由は、現在の研究は主に、深度情報なしでシーンテキストの平面レベルの幾何学的関係を構築することに焦点を当てているためである。
これにより、シーンテキストリレーショナル推論が不十分になり、モデルがシーンテキストを不正確に記述できる。
もう1つの考えられる理由は、既存のメソッドがいくつかの視覚オブジェクトのきめ細かい記述を生成できないことである。
さらに、それらは必須の視覚オブジェクトを無視することもあり、これらの無視オブジェクトに属するシーンテキストは利用されない。
以上の問題に対処するため,テキストキャプチャのためのDEVICE(Depth and VIsual ConcEpts Aware Transformer)を提案する。
具体的には,3次元幾何学的関係を構築するために,奥行き情報を導入し,OCRトークンの特徴を改良するための奥行き強調機能更新モジュールを提案する。
より正確で包括的なキャプションを生成するために,検出された視覚オブジェクト概念のセマンティックな特徴を補助情報として導入する。
本装置は、シーンをより包括的に一般化し、記述された視覚エンティティの精度を高めることができる。
十分な実験により,textcapsテストセットの最先端モデルに匹敵するデバイスの有効性が実証された。
私たちのコードは公開されます。
関連論文リスト
- VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution [31.88960656995447]
テキスト画像中の文字のストロークレベルの内部構造に焦点を合わせるために,Stroke-Aware Scene Text Image Super-Resolution法を提案する。
具体的には、英語の文字と数字をストロークレベルに分解するためのルールを設計し、テキスト認識器を事前訓練して、ストロークレベルのアテンションマップを位置的手がかりとして提供する。
提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より区別可能な画像を生成することができる。
論文 参考訳(メタデータ) (2021-12-13T15:26:10Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。