論文の概要: Towards Models that Can See and Read
- arxiv url: http://arxiv.org/abs/2301.07389v1
- Date: Wed, 18 Jan 2023 09:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:27:26.671107
- Title: Towards Models that Can See and Read
- Title(参考訳): 見たり読んだりできるモデルに向けて
- Authors: Roy Ganz, Oren Nuriel, Aviad Aberdam, Yair Kittenplon, Shai Mazor, Ron
Litman
- Abstract要約: Visual Question Answering (VQA) と Image Captioning (CAP) は、画像中のテキストからの推論を必要とする類似のシーンテキストバージョンである。
既存のマルチモーダルアーキテクチャのシーンテキスト理解機能を実現するUniified Text-Non-TextアプローチであるUniTNTを提案する。
シーンテキスト理解機能により,VQAおよびCAPにおける視覚言語モデルの性能が最大3.49%向上し,0.7CIDEr向上することを示す。
- 参考スコア(独自算出の注目度): 12.078407046266982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) and Image Captioning (CAP), which are among
the most popular vision-language tasks, have analogous scene-text versions that
require reasoning from the text in the image. Despite the obvious resemblance
between them, the two are treated independently, yielding task-specific methods
that can either see or read, but not both. In this work, we conduct an in-depth
analysis of this phenomenon and propose UniTNT, a Unified Text-Non-Text
approach, which grants existing multimodal architectures scene-text
understanding capabilities. Specifically, we treat scene-text information as an
additional modality, fusing it with any pretrained encoder-decoder-based
architecture via designated modules. Thorough experiments reveal that UniTNT
leads to the first single model that successfully handles both task types.
Moreover, we show that scene-text understanding capabilities can boost
vision-language models' performance on VQA and CAP by up to 3.49% and 0.7
CIDEr, respectively.
- Abstract(参考訳): 最も一般的な視覚言語タスクである視覚質問応答(vqa)と画像キャプション(cap)には、画像中のテキストから推論を必要とする類似のシーンテキストバージョンがある。
両者の間に明らかな類似性があるにもかかわらず、両者は独立して扱われ、見るか読むかのどちらかが可能なタスク固有のメソッドが生み出される。
本研究では,この現象の詳細な解析を行い,既存のマルチモーダルアーキテクチャのシーンテキスト理解機能を実現するUnified Text-Non-TextアプローチであるUniTNTを提案する。
具体的には、シーンテキスト情報を付加的なモダリティとして扱い、指定されたモジュールを介して事前訓練されたエンコーダデコーダベースのアーキテクチャと融合する。
徹底的な実験の結果、UniTNTは両方のタスクタイプをうまく扱える最初の単一モデルに導かれることがわかった。
さらに、シーンテキスト理解機能により、VQAおよびCAPにおける視覚言語モデルの性能が最大3.49%向上し、0.7CIDEr向上することを示す。
関連論文リスト
- UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。