Fugu-MT 論文翻訳(概要): ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering

論文の概要: ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering

arxiv url: http://arxiv.org/abs/2410.14132v1
Date: Fri, 18 Oct 2024 03:00:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.290054
Title: ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering
Title（参考訳）: ViConsFormer:ベトナム語テキストを用いた視覚質問応答におけるトランスフォーマー方式によるシーンテキストの意味表現の構成
Authors: Nghia Hieu Nguyen, Tho Thanh Quan, Ngan Luu-Thuy Nguyen,
Abstract要約: テキストベースのVQAの主な課題は、シーンテキストの意味と情報を活用することである。近年の研究では、画像中のシーンテキストの空間的情報を考慮することでこの問題に対処している。ベトナム語で書かれたシーンテキストからの情報を効果的に活用する新しい手法を提案する。
参考スコア（独自算出の注目度）: 0.5803309695504829
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-based VQA is a challenging task that requires machines to use scene texts in given images to yield the most appropriate answer for the given question. The main challenge of text-based VQA is exploiting the meaning and information from scene texts. Recent studies tackled this challenge by considering the spatial information of scene texts in images via embedding 2D coordinates of their bounding boxes. In this study, we follow the definition of meaning from linguistics to introduce a novel method that effectively exploits the information from scene texts written in Vietnamese. Experimental results show that our proposed method obtains state-of-the-art results on two large-scale Vietnamese Text-based VQA datasets. The implementation can be found at this link.
Abstract（参考訳）: テキストベースのVQAは、与えられた質問に対して最も適切な回答を得るために、マシンが与えられた画像のシーンテキストを使用する必要がある、困難なタスクである。テキストベースのVQAの主な課題は、シーンテキストの意味と情報を活用することである。近年の研究では、境界ボックスの2次元座標を埋め込み、画像中のシーンテキストの空間情報を考慮し、この問題に対処している。本研究では,ベトナム語で書かれたシーンテキストからの情報を効果的に活用する新しい手法を導入するために,言語学からの意味の定義に従う。実験結果から,ベトナムの大規模テキストベースVQAデータセットに対して,提案手法が最先端の成果を得ることがわかった。実装はこのリンクで確認できる。

関連論文リスト

Scene-Text Grounding for Text-Based Video Question Answering [97.1112579979614]
テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。我々は,モデルに質問への回答を強制し,関連するシーンテキスト領域を解釈させることにより,グラウンドドテキストビデオQAを研究する。
論文参考訳（メタデータ） (2024-09-22T05:13:11Z)
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文参考訳（メタデータ） (2024-05-21T06:48:26Z)
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.2529442734851663]
ベトナムでは,画像に現れるテキストを理解する能力に特化して,最初の大規模データセットを導入する。我々は、OCRテキスト中のトークンを処理し、回答を定式化するために選択する順序の重要性を明らかにする。
論文参考訳（メタデータ） (2024-04-16T15:28:30Z)
Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文参考訳（メタデータ） (2023-09-03T05:30:21Z)
Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文参考訳（メタデータ） (2023-08-15T05:08:12Z)
Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation [1.9085074258303771]
本研究では,ソース言語からターゲット言語へのシーンテキストの視覚的翻訳作業について検討する。視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。本稿では、シーンテキスト認識、機械翻訳、シーンテキスト合成のための最先端モジュールを組み合わせた視覚翻訳のためのケースケードフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-06T05:23:25Z)
TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文参考訳（メタデータ） (2022-08-03T02:18:09Z)
ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval [66.66400551173619]
単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-03-31T03:40:21Z)
VieSum: How Robust Are Transformer-based Models on Vietnamese Summarization? [1.1379578593538398]
ベトナムの抽象的な要約のためのトランスフォーマーベースエンコーダデコーダアーキテクチャのロバスト性について検討する。ベトナムの2つのデータセットにおける手法の性能を検証した。
論文参考訳（メタデータ） (2021-10-08T17:10:31Z)
RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering [14.498144268367541]
テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) と呼ばれる新しいテキスト中心方式を提案する。 RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
論文参考訳（メタデータ） (2020-10-24T15:37:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。