論文の概要: A Simple Data Augmentation Strategy for Text-in-Image Scientific VQA
- arxiv url: http://arxiv.org/abs/2509.20119v1
- Date: Wed, 24 Sep 2025 13:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.830631
- Title: A Simple Data Augmentation Strategy for Text-in-Image Scientific VQA
- Title(参考訳): テキスト・イン・イメージ科学VQAのための簡易データ拡張戦略
- Authors: Belal Shoer, Yova Kementchedjhieva,
- Abstract要約: 合成データとEXAMS-Vを混合した小さな多言語マルチモーダルモデルを微調整すると、13言語で顕著な利得が得られる。
本稿では,視覚コンテンツとテキストコンテンツの両方を単一の画像に埋め込むことにより,新たなパラダイムを提案する。
この「text-in-image」フォーマットでのトレーニングデータの不足に対処するため、既存の分離された画像テキストペアを統一された画像に変換することで、新しいデータセットを合成する。
- 参考スコア(独自算出の注目度): 4.456773511251556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific visual question answering poses significant challenges for vision-language models due to the complexity of scientific figures and their multimodal context. Traditional approaches treat the figure and accompanying text (e.g., questions and answer options) as separate inputs. EXAMS-V introduced a new paradigm by embedding both visual and textual content into a single image. However, even state-of-the-art proprietary models perform poorly on this setup in zero-shot settings, underscoring the need for task-specific fine-tuning. To address the scarcity of training data in this "text-in-image" format, we synthesize a new dataset by converting existing separate image-text pairs into unified images. Fine-tuning a small multilingual multimodal model on a mix of our synthetic data and EXAMS-V yields notable gains across 13 languages, demonstrating strong average improvements and cross-lingual transfer.
- Abstract(参考訳): 科学的な視覚的質問応答は、科学的な数字の複雑さと多モーダルな文脈によって、視覚言語モデルにとって大きな課題となる。
伝統的なアプローチでは、フィギュアと付随するテキスト(例えば、質問や回答のオプション)を別の入力として扱う。
EXAMS-Vは、ビジュアルコンテンツとテキストコンテンツの両方を単一のイメージに埋め込むことによって、新しいパラダイムを導入した。
しかし、最先端のプロプライエタリモデルでさえ、ゼロショット設定ではこの設定では性能が悪く、タスク固有の微調整の必要性が強調されている。
この「text-in-image」フォーマットでのトレーニングデータの不足に対処するため、既存の分離された画像テキストペアを統一された画像に変換することで、新しいデータセットを合成する。
合成データとEXAMS-Vを混合した小さな多言語マルチモーダルモデルを微調整すると、13言語で顕著な利得が得られる。
関連論文リスト
- Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。