論文の概要: DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning
- arxiv url: http://arxiv.org/abs/2302.01540v4
- Date: Sat, 26 Apr 2025 17:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.460298
- Title: DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning
- Title(参考訳): 装置:OCR画像キャプションのための奥行きと視覚概念認識変換器
- Authors: Dongsheng Xu, Qingbao Huang, Xingmao Zhang, Haonan Cheng, Feng Shuang, Yi Cai,
- Abstract要約: OCRをベースとした画像キャプションは重要だが未探索の課題である。
近年の研究は進歩を奨励しているが、シーンの全体的な理解の欠如に悩まされている。
我々は,OCRに基づく画像カプティノンのための深度・視覚認識概念変換器(DEVICE)を提案する。
- 参考スコア(独自算出の注目度): 12.786190263272859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: OCR-based image captioning is an important but under-explored task, aiming to generate descriptions containing visual objects and scene text. Recent studies have made encouraging progress, but they are still suffering from a lack of overall understanding of scenes and generating inaccurate captions. One possible reason is that current studies mainly focus on constructing the plane-level geometric relationship of scene text without depth information. This leads to insufficient scene text relational reasoning so that models may describe scene text inaccurately. The other possible reason is that existing methods fail to generate fine-grained descriptions of some visual objects. In addition, they may ignore essential visual objects, leading to the scene text belonging to these ignored objects not being utilized. To address the above issues, we propose a Depth and Visual Concepts Aware Transformer (DEVICE) for OCR-based image captinong. Concretely, to construct three-dimensional geometric relations, we introduce depth information and propose a depth-enhanced feature updating module to ameliorate OCR token features. To generate more precise and comprehensive captions, we introduce semantic features of detected visual concepts as auxiliary information, and propose a semantic-guided alignment module to improve the model's ability to utilize visual concepts. Our DEVICE is capable of comprehending scenes more comprehensively and boosting the accuracy of described visual entities. Sufficient experiments demonstrate the effectiveness of our proposed DEVICE, which outperforms state-of-the-art models on the TextCaps test set.
- Abstract(参考訳): OCRをベースとした画像キャプションは重要だが未探索の課題であり、視覚オブジェクトやシーンテキストを含む記述を生成することを目的としている。
近年の研究は進歩を奨励しているが、シーンの全体的な理解の欠如や不正確なキャプションの発生に悩まされている。
一つの可能性として、近年の研究は、深度情報のないシーンテキストの平面レベルの幾何学的関係の構築に主眼を置いている。
これにより、シーンテキストリレーショナル推論が不十分になり、モデルがシーンテキストを不正確に記述することが可能になる。
もう1つの考えられる理由は、既存のメソッドがいくつかの視覚オブジェクトのきめ細かい記述を生成できないことである。
さらに、それらは必須の視覚的オブジェクトを無視することもあり、これらの無視されたオブジェクトに属するシーンテキストは利用されない。
上記の問題に対処するため,OCRを用いた画像キャプチャのためのDEVICE(Depth and Visual Concepts Aware Transformer)を提案する。
具体的には,3次元幾何学的関係を構築するために,奥行き情報を導入し,OCRトークンの特徴を改善するための奥行き強調機能更新モジュールを提案する。
より正確で包括的なキャプションを生成するために,検出された視覚概念のセマンティックな特徴を補助情報として導入し,視覚概念の活用能力を向上させるための意味誘導アライメントモジュールを提案する。
我々の装置は、より包括的にシーンを解釈し、記述された視覚的実体の精度を高めることができる。
提案装置は,TextCapsテストセットの最先端モデルよりも優れた性能を示す。
関連論文リスト
- Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception [42.432917056115166]
大規模マルチモダリティモデルのトレーニングは、画像と言語を接続する記述的なイメージキャプションに依存している。
画像キャプションの強化を目的として, 画像キャプションではなく, 注釈付き画像から訓練した, 市販のビジュアルスペシャリストを活用することを提案する。
論文 参考訳(メタデータ) (2024-12-18T18:45:43Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution [31.88960656995447]
テキスト画像中の文字のストロークレベルの内部構造に焦点を合わせるために,Stroke-Aware Scene Text Image Super-Resolution法を提案する。
具体的には、英語の文字と数字をストロークレベルに分解するためのルールを設計し、テキスト認識器を事前訓練して、ストロークレベルのアテンションマップを位置的手がかりとして提供する。
提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より区別可能な画像を生成することができる。
論文 参考訳(メタデータ) (2021-12-13T15:26:10Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。