論文の概要: Multi-Task Learning for Visually Grounded Reasoning in Gastrointestinal VQA
- arxiv url: http://arxiv.org/abs/2511.04384v1
- Date: Thu, 06 Nov 2025 14:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.444283
- Title: Multi-Task Learning for Visually Grounded Reasoning in Gastrointestinal VQA
- Title(参考訳): 消化管VQAにおける視覚的推論のためのマルチタスク学習
- Authors: Itbaan Safwan, Muhammad Annas Shaikh, Muhammad Haaris, Ramail Khan, Muhammad Atif Tahir,
- Abstract要約: メディアエバルメディコ2025チャレンジのためのマルチタスク・フレームワークを提案し,ロラ調整型Florence-2モデルを用いて同時視覚質問応答(VQA)を行う。
提案システムは,(1)質問応答学習のためのKvasir-VQA-x1,(2)構造化医用推論を提供する合成豊かな説明データセット,(3)視覚的特徴とセグメンテーションマスクをリンクするテキストと領域のペアの3つを統合した。
- 参考スコア(独自算出の注目度): 1.9138416746729587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a multi-task framework for the MediaEval Medico 2025 challenge, leveraging a LoRA-tuned Florence-2 model for simultaneous visual question answering (VQA), explanation generation, and visual grounding. The proposed system integrates three curated datasets: (1) Kvasir-VQA-x1 for question-answer learning, (2) a synthetically enriched explanation dataset offering structured medical reasoning, and (3) text-to-region pairs linking visual features with segmentation masks. This multi-task setup enables the model to jointly learn visual grounding, reasoning, and interpretation, producing responses that are both accurate and interpretable. Extensive evaluation demonstrates that our approach substantially improves over single-task baselines in both answer accuracy and visual localization, highlighting the effectiveness of grounded multi-task learning for medical VQA applications.
- Abstract(参考訳): 本稿では,メディアエバルメディコ2025課題に対するマルチタスク・フレームワークを提案し,LoRAで調整したFlorence-2モデルを同時視覚質問応答(VQA),説明生成,視覚的グラウンドリングに活用する。
提案システムは,(1)質問応答学習のためのKvasir-VQA-x1,(2)構造化医用推論を提供する合成豊かな説明データセット,(3)視覚的特徴とセグメンテーションマスクをリンクするテキストと領域のペアの3つを統合した。
このマルチタスク設定により、モデルは視覚的接地、推論、解釈を共同で学習し、正確かつ解釈可能な応答を生成することができる。
広汎な評価により,本手法は回答精度と視覚的局所性の両方において,単一タスクベースラインよりも大幅に向上し,医療用VQAアプリケーションにおける基礎的マルチタスク学習の有効性を強調した。
関連論文リスト
- S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Progressive Language-guided Visual Learning for Multi-Task Visual Grounding [21.297317604403652]
マルチタスクビジュアルグラウンドティングのためのプログレッシブ言語誘導型ビジュアルラーニングフレームワークを提案する。
本稿では,マルチタスク・ビジュアル・グラウンドティングのためのプログレッシブ言語誘導型ビジュアル・ラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T12:48:12Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - A Dual-Attention Learning Network with Word and Sentence Embedding for
Medical Visual Question Answering [2.0559497209595823]
医学的視覚的質問応答(MVQA)の研究は、コンピュータ支援診断の開発に寄与する。
既存のMVQA質問抽出方式は、主にテキスト中の医療情報を無視した単語情報に焦点を当てている。
本研究では,単語と文の埋め込み(WSDAN)を併用した二重注意学習ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-01T08:32:40Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。