論文の概要: Describe Anything Model for Visual Question Answering on Text-rich Images
- arxiv url: http://arxiv.org/abs/2507.12441v1
- Date: Wed, 16 Jul 2025 17:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.499644
- Title: Describe Anything Model for Visual Question Answering on Text-rich Images
- Title(参考訳): テキストリッチ画像を用いた視覚質問応答モデルの作成
- Authors: Yen-Linh Vu, Dinh-Thang Duong, Truong-Binh Duong, Anh-Khoi Nguyen, Thanh-Huy Nguyen, Le Thien Phuc Nguyen, Jianhua Xing, Xingjian Li, Tianyang Wang, Ulas Bagci, Min Xu,
- Abstract要約: DAMの領域認識機能を利用するフレームワークであるDAM-QAを,テキストリッチな視覚質問応答問題に適用する。
我々のアプローチは、DocVQAで注目すべき7以上のポイントゲインで、ベースラインDAMを一貫して上回ります。
その結果、効率的な使用法と統合戦略を組み合わせれば、テキストリッチで広範なVQAタスクのためのDAMライクなモデルの可能性が浮き彫りになる。
- 参考スコア(独自算出の注目度): 7.618388911738171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress has been made in region-aware vision-language modeling, particularly with the emergence of the Describe Anything Model (DAM). DAM is capable of generating detailed descriptions of any specific image areas or objects without the need for additional localized image-text alignment supervision. We hypothesize that such region-level descriptive capability is beneficial for the task of Visual Question Answering (VQA), especially in challenging scenarios involving images with dense text. In such settings, the fine-grained extraction of textual information is crucial to producing correct answers. Motivated by this, we introduce DAM-QA, a framework with a tailored evaluation protocol, developed to investigate and harness the region-aware capabilities from DAM for the text-rich VQA problem that requires reasoning over text-based information within images. DAM-QA incorporates a mechanism that aggregates answers from multiple regional views of image content, enabling more effective identification of evidence that may be tied to text-related elements. Experiments on six VQA benchmarks show that our approach consistently outperforms the baseline DAM, with a notable 7+ point gain on DocVQA. DAM-QA also achieves the best overall performance among region-aware models with fewer parameters, significantly narrowing the gap with strong generalist VLMs. These results highlight the potential of DAM-like models for text-rich and broader VQA tasks when paired with efficient usage and integration strategies. Our code is publicly available at https://github.com/Linvyl/DAM-QA.git.
- Abstract(参考訳): 特にDAM(Describe Anything Model)の出現に伴い,領域認識型視覚言語モデリングの進歩が進んでいる。
DAMは、追加のローカライズされた画像テキストアライメントの監督を必要とせずに、特定の画像領域やオブジェクトの詳細な記述を生成することができる。
このような領域レベルの記述能力は、視覚質問応答(VQA)のタスク、特に高密度テキストを含む画像に関わる難易度シナリオに有用である、という仮説を立てる。
このような設定では、テキスト情報のきめ細かい抽出は、正しい回答を生成するために不可欠である。
そこで本稿では,画像内のテキストベース情報に対する推論を必要とするテキストリッチなVQA問題に対して,DAMからの領域認識機能を調査・活用するフレームワークであるDAM-QAを紹介する。
DAM-QAは、画像内容の複数の地域ビューから回答を集約するメカニズムを取り入れており、テキスト関連要素に結びつく可能性のある証拠をより効果的に識別することができる。
6つのVQAベンチマークの実験では、我々のアプローチは、DocVQAに対して7以上のポイントゲインで、ベースラインのDAMを一貫して上回ります。
DAM-QAはまた、パラメータが少ない領域認識モデル間で最高の全体的な性能を達成し、強力な一般VLMとのギャップを著しく狭める。
これらの結果は、効率的な使用法と統合戦略と組み合わせることで、テキストリッチで広範なVQAタスクのためのDAMライクなモデルの可能性を強調している。
私たちのコードはhttps://github.com/Linvyl/DAM-QA.git.comで公開されています。
関連論文リスト
- A Graph-based Approach for Multi-Modal Question Answering from Flowcharts in Telecom Documents [0.619840955350879]
技術的文書からの質問回答は、フローチャートやフロー図のような数字に答えが存在する質問を含むことが多い。
我々は,VLM(Visual Large Language Models)から得られたフローチャートのグラフ表現を活用し,それをテキストベースRAGシステムに組み込んで,通信領域におけるQAの画像検索を可能にすることを示す。
論文 参考訳(メタデータ) (2025-07-25T07:36:13Z) - ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文 参考訳(メタデータ) (2025-03-01T03:29:02Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning [4.955697042432618]
本稿では,MoCollと呼ばれる新しいエージェント強化モデルコラボレーションフレームワークを提案する。
MoCollは複雑なイメージキャプションタスクを一連の相互接続された質問応答サブタスクに分解する。
放射線学レポート生成実験の結果,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-01-03T14:38:01Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。