論文の概要: Text-VQA Aug: Pipelined Harnessing of Large Multimodal Models for Automated Synthesis
- arxiv url: http://arxiv.org/abs/2511.02046v1
- Date: Mon, 03 Nov 2025 20:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.674646
- Title: Text-VQA Aug: Pipelined Harnessing of Large Multimodal Models for Automated Synthesis
- Title(参考訳): テキストVQA Aug:自動合成のための大規模マルチモーダルモデルのパイプライン調和
- Authors: Soham Joshi, Shwet Kamal Mishra, Viswanath Gopalakrishnan,
- Abstract要約: テキストVQAデータセットの自動合成のためのパイプラインを提案する。
これは大規模なテキスト-VQAデータセットを自動的に合成し、検証するために提案された最初のパイプラインである。
- 参考スコア(独自算出の注目度): 1.2744523252873352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creation of large-scale databases for Visual Question Answering tasks pertaining to the text data in a scene (text-VQA) involves skilful human annotation, which is tedious and challenging. With the advent of foundation models that handle vision and language modalities, and with the maturity of OCR systems, it is the need of the hour to establish an end-to-end pipeline that can synthesize Question-Answer (QA) pairs based on scene-text from a given image. We propose a pipeline for automated synthesis for text-VQA dataset that can produce faithful QA pairs, and which scales up with the availability of scene text data. Our proposed method harnesses the capabilities of multiple models and algorithms involving OCR detection and recognition (text spotting), region of interest (ROI) detection, caption generation, and question generation. These components are streamlined into a cohesive pipeline to automate the synthesis and validation of QA pairs. To the best of our knowledge, this is the first pipeline proposed to automatically synthesize and validate a large-scale text-VQA dataset comprising around 72K QA pairs based on around 44K images.
- Abstract(参考訳): シーン内のテキストデータに関連するタスク(text-VQA)に対する視覚質問応答タスクのための大規模データベースの作成には、面倒で難しい、巧妙な人間のアノテーションが伴う。
視覚と言語モダリティを扱う基礎モデルが出現し、OCRシステムの成熟とともに、与えられた画像からシーンテキストに基づいて質問応答(QA)ペアを合成できるエンドツーエンドパイプラインを確立する必要がある。
本稿では,忠実なQAペアを生成することができるテキスト-VQAデータセットの自動合成のためのパイプラインを提案する。
提案手法は,OCR検出・認識(テキストスポッティング),関心領域検出(ROI)検出,キャプション生成,質問生成を含む複数のモデルとアルゴリズムの機能を利用する。
これらのコンポーネントは結合パイプラインに合理化され、QAペアの合成と検証を自動化する。
我々の知る限りでは、約44Kの画像に基づいて約72KのQAペアからなる大規模なテキスト-VQAデータセットを自動で合成し、検証するために提案された最初のパイプラインである。
関連論文リスト
- A Graph-based Approach for Multi-Modal Question Answering from Flowcharts in Telecom Documents [0.619840955350879]
技術的文書からの質問回答は、フローチャートやフロー図のような数字に答えが存在する質問を含むことが多い。
我々は,VLM(Visual Large Language Models)から得られたフローチャートのグラフ表現を活用し,それをテキストベースRAGシステムに組み込んで,通信領域におけるQAの画像検索を可能にすることを示す。
論文 参考訳(メタデータ) (2025-07-25T07:36:13Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。