論文の概要: Label or Message: A Large-Scale Experimental Survey of Texts and Objects
Co-Occurrence
- arxiv url: http://arxiv.org/abs/2007.15381v1
- Date: Thu, 30 Jul 2020 11:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:15:32.488070
- Title: Label or Message: A Large-Scale Experimental Survey of Texts and Objects
Co-Occurrence
- Title(参考訳): Label or Message: テキストとオブジェクトの共起に関する大規模調査
- Authors: Koki Takeshita, Juntaro Shioyama and Seiichi Uchida
- Abstract要約: 我々は、オブジェクトを詳細に記述するためにオブジェクトにアタッチされる"ラベル"テキストの機能に焦点を当てる。
オブジェクトとシーンテキストの共起を解析することにより、ラベルテキストに関する統計を観察することができる。
- 参考スコア(独自算出の注目度): 9.410583483182657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our daily life is surrounded by textual information. Nowadays, the automatic
collection of textual information becomes possible owing to the drastic
improvement of scene text detectors and recognizer. The purpose of this paper
is to conduct a large-scale survey of co-occurrence between visual objects
(such as book and car) and scene texts with a large image dataset and a
state-of-the-art scene text detector and recognizer. Especially, we focus on
the function of "label" texts, which are attached to objects for detailing the
objects. By analyzing co-occurrence between objects and scene texts, it is
possible to observe the statistics about the label texts and understand how the
scene texts will be useful for recognizing the objects and vice versa.
- Abstract(参考訳): 私たちの日常生活はテキスト情報に囲まれている。
近年,シーンテキスト検出器や認識器の大幅な改良により,テキスト情報の自動収集が可能となった。
本研究の目的は,視覚オブジェクト(本や車など)とシーンテキストとの共起を,画像データセットと最先端のシーンテキスト検出および認識装置を用いて大規模に調査することである。
特に、オブジェクトを詳細に記述するためのオブジェクトにアタッチされた「ラベル」テキストの機能に焦点を当てる。
オブジェクトとシーンテキストの共起を分析することで、ラベルテキストに関する統計を観察し、シーンテキストがオブジェクトを認識するのにどのように役立つかを理解することができ、その逆も可能である。
関連論文リスト
- Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Textual Visual Semantic Dataset for Text Spotting [27.788077963411624]
野生のテキストスポッティングは、画像に現れるテキストを検出して認識する。
これは、テキストが現れるコンテキストの複雑さのため、難しい問題である。
野生におけるテキストスポッティングのための視覚的コンテキストデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-21T23:58:16Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。