論文の概要: Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation
- arxiv url: http://arxiv.org/abs/2403.02707v1
- Date: Tue, 5 Mar 2024 06:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:47:13.884808
- Title: Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation
- Title(参考訳): 勾配誘導モデル摂動による医用視覚質問応答タスクの一般化の促進
- Authors: Gang Liu, Hongyang Li, Zerui He, Shenjun Zhong
- Abstract要約: 本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 16.22199565010318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging pre-trained visual language models has become a widely adopted
approach for improving performance in downstream visual question answering
(VQA) applications. However, in the specialized field of medical VQA, the
scarcity of available data poses a significant barrier to achieving reliable
model generalization. Numerous methods have been proposed to enhance model
generalization, addressing the issue from data-centric and model-centric
perspectives. Data augmentation techniques are commonly employed to enrich the
dataset, while various regularization approaches aim to prevent model
overfitting, especially when training on limited data samples. In this paper,
we introduce a method that incorporates gradient-guided parameter perturbations
to the visual encoder of the multimodality model during both pre-training and
fine-tuning phases, to improve model generalization for downstream medical VQA
tasks. The small perturbation is adaptively generated by aligning with the
direction of the moving average gradient in the optimization landscape, which
is opposite to the directions of the optimizer's historical updates. It is
subsequently injected into the model's visual encoder. The results show that,
even with a significantly smaller pre-training image caption dataset, our
approach achieves competitive outcomes on both VQA-RAD and SLAKE datasets.
- Abstract(参考訳): 事前学習された視覚言語モデルを活用することは、下流視覚質問応答(VQA)アプリケーションの性能向上に広く採用されている。
しかし、医療用VQAの専門分野において、利用可能なデータの不足は、信頼性の高いモデル一般化を実現する上で重要な障壁となる。
データ中心およびモデル中心の観点から、モデル一般化を強化するために多くの方法が提案されている。
データ拡張技術はデータセットを豊かにするのに対して、さまざまな正規化アプローチは、特に限られたデータサンプルのトレーニングにおいて、モデルの過度な適合を防止することを目的としている。
本稿では,下流医療用VQAタスクのモデル一般化を改善するため,事前学習と微調整の両段階における多モードモデルの視覚的エンコーダに勾配誘導パラメータ摂動を組み込む手法を提案する。
小さな摂動は、最適化者の過去の更新方向とは逆の、最適化ランドスケープにおける移動平均勾配の方向と整合して、適応的に生成される。
その後、モデルのビジュアルエンコーダに注入される。
その結果,画像キャプションデータセットが大幅に小さくても,VQA-RADとSLAKEの双方で競合する結果が得られることがわかった。
関連論文リスト
- HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
本稿では,視覚的自己回帰変換器に基づく最初の自己回帰深度推定モデルを提案する。
我々の主な貢献は、Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法であるDepthARTである。
実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2024-09-23T13:36:34Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - TED: Accelerate Model Training by Internal Generalization [19.336762953352956]
大規模言語モデルは近年,高いパフォーマンスを示しているが,トレーニングコストが高いため,データセットサイズを圧縮する効率的な方法の必要性が高まっている。
本研究では,高プルーニング比下でのオーバーフィッティングの課題に対処するTEDプルーニングを提案する。
論文 参考訳(メタデータ) (2024-05-06T07:40:13Z) - Gradient Guidance for Diffusion Models: An Optimization Perspective [45.6080199096424]
本稿では,ユーザ特定目的の最適化に向けて,事前学習した拡散モデルを適用するための勾配ガイダンスの形式について検討する。
我々は,その最適化理論とアルゴリズム設計を体系的に研究するために,誘導拡散の数学的枠組みを確立する。
論文 参考訳(メタデータ) (2024-04-23T04:51:02Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Robust Optimization as Data Augmentation for Large-scale Graphs [117.2376815614148]
学習中に勾配に基づく逆方向摂動を伴うノード特徴を反復的に拡張するFLAG(Free Large-scale Adversarial Augmentation on Graphs)を提案する。
FLAGはグラフデータに対する汎用的なアプローチであり、ノード分類、リンク予測、グラフ分類タスクで普遍的に機能する。
論文 参考訳(メタデータ) (2020-10-19T21:51:47Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。