論文の概要: BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA
- arxiv url: http://arxiv.org/abs/2503.02476v1
- Date: Tue, 04 Mar 2025 10:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:00.533017
- Title: BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA
- Title(参考訳): BioD2C: バイオメディカルVQAのための二重レベルセマンティック一貫性制約フレームワーク
- Authors: Zhengyang Ji, Shang Gao, Li Liu, Yifan Jia, Yutao Yue,
- Abstract要約: バイオメディカルVQAのための新しい2レベルセマンティック一貫性制約フレームワークBioD2Cを提案する。
BioD2Cは、モデルと特徴レベルの両方で二重レベルのセマンティックインタラクションアライメントを実現し、モデルが質問に基づいて視覚的特徴を適応的に学習できるようにする。
本研究では,手動で修正した画像をフィルタリングし,質問と回答のペアをマルチモーダルな文脈で整列させることにより,過去のデータセットに固有のバイアスに対処する新たなデータセットであるBioVGQを確立する。
- 参考スコア(独自算出の注目度): 5.840467499436581
- License:
- Abstract: Biomedical visual question answering (VQA) has been widely studied and has demonstrated significant application value and potential in fields such as assistive medical diagnosis. Despite their success, current biomedical VQA models perform multimodal information interaction only at the model level within large language models (LLMs), leading to suboptimal multimodal semantic alignment when dealing with complex tasks. To address this issue, we propose BioD2C: a novel Dual-level Semantic Consistency Constraint Framework for Biomedical VQA, which achieves dual-level semantic interaction alignment at both the model and feature levels, enabling the model to adaptively learn visual features based on the question. Specifically, we firstly integrate textual features into visual features via an image-text fusion mechanism as feature-level semantic interaction, obtaining visual features conditioned on the given text; and then introduce a text-queue-based cross-modal soft semantic loss function to further align the image semantics with the question semantics. Specifically, in this work, we establish a new dataset, BioVGQ, to address inherent biases in prior datasets by filtering manually-altered images and aligning question-answer pairs with multimodal context, and train our model on this dataset. Extensive experimental results demonstrate that BioD2C achieves state-of-the-art (SOTA) performance across multiple downstream datasets, showcasing its robustness, generalizability, and potential to advance biomedical VQA research.
- Abstract(参考訳): バイオメディカル・ビジュアル・クアリング (VQA) は広く研究され, 補助的医学的診断などの分野で大きな応用価値と可能性を示している。
その成功にもかかわらず、現在のバイオメディカルVQAモデルは、大規模言語モデル(LLM)のモデルレベルでのみマルチモーダル情報インタラクションを行い、複雑なタスクを扱う際には、最適でないマルチモーダルセマンティックアライメントをもたらす。
そこで本研究では,2段階のセマンティック・コンストラクト・フレームワークであるBioD2Cを提案する。2段階のセマンティック・コンストラクト・アライメントをモデルレベルと特徴レベルで実現し,モデルが問題に基づいて視覚的特徴を適応的に学習できるようにする。
具体的には、まず、画像テキスト融合機構を特徴レベルのセマンティックな相互作用として利用し、与えられたテキストに条件付けされた視覚的特徴を取得し、次に、テキストキューベースのクロスモーダルなセマンティックなセマンティックな損失関数を導入し、画像セマンティクスと質問セマンティクスを更に整合させる。
具体的には、手動で修正した画像をフィルタリングし、質問と回答のペアをマルチモーダルなコンテキストで調整し、このデータセット上でモデルをトレーニングすることで、以前のデータセットに固有のバイアスに対処する、BioVGQというデータセットを確立する。
大規模な実験結果から,BioD2Cは複数の下流データセットにまたがる最先端(SOTA)性能を達成し,その堅牢性,一般化性,バイオメディカルVQA研究の進展の可能性を示した。
関連論文リスト
- Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine [9.881981672848598]
MedPLIBという名前のバイオメディカルドメインのための新しいエンド・ツー・エンド・マルチモーダル・大規模言語モデルを導入する。
視覚的質問応答(VQA)、任意のピクセルレベルのプロンプト(ポイント、バウンディングボックス、自由形式の形状)、ピクセルレベルの接地をサポートする。
その結果,MedPLIBは複数の医学的視覚言語タスクにおいて最先端の結果を得たことが示唆された。
論文 参考訳(メタデータ) (2024-12-12T13:41:35Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction [3.2274401541163322]
本稿では,パスとヒストロジーパッチトークン間の相互作用をモデル化できるメモリ効率の良いマルチモーダルトランスを提案する。
提案モデルであるSURVPATHは,非モーダルベースラインとマルチモーダルベースラインの両方に対して評価した場合に,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-04-13T21:02:32Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。