論文の概要: Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation
- arxiv url: http://arxiv.org/abs/2403.02707v1
- Date: Tue, 5 Mar 2024 06:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:47:13.884808
- Title: Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation
- Title(参考訳): 勾配誘導モデル摂動による医用視覚質問応答タスクの一般化の促進
- Authors: Gang Liu, Hongyang Li, Zerui He, Shenjun Zhong
- Abstract要約: 本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 16.22199565010318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging pre-trained visual language models has become a widely adopted
approach for improving performance in downstream visual question answering
(VQA) applications. However, in the specialized field of medical VQA, the
scarcity of available data poses a significant barrier to achieving reliable
model generalization. Numerous methods have been proposed to enhance model
generalization, addressing the issue from data-centric and model-centric
perspectives. Data augmentation techniques are commonly employed to enrich the
dataset, while various regularization approaches aim to prevent model
overfitting, especially when training on limited data samples. In this paper,
we introduce a method that incorporates gradient-guided parameter perturbations
to the visual encoder of the multimodality model during both pre-training and
fine-tuning phases, to improve model generalization for downstream medical VQA
tasks. The small perturbation is adaptively generated by aligning with the
direction of the moving average gradient in the optimization landscape, which
is opposite to the directions of the optimizer's historical updates. It is
subsequently injected into the model's visual encoder. The results show that,
even with a significantly smaller pre-training image caption dataset, our
approach achieves competitive outcomes on both VQA-RAD and SLAKE datasets.
- Abstract(参考訳): 事前学習された視覚言語モデルを活用することは、下流視覚質問応答(VQA)アプリケーションの性能向上に広く採用されている。
しかし、医療用VQAの専門分野において、利用可能なデータの不足は、信頼性の高いモデル一般化を実現する上で重要な障壁となる。
データ中心およびモデル中心の観点から、モデル一般化を強化するために多くの方法が提案されている。
データ拡張技術はデータセットを豊かにするのに対して、さまざまな正規化アプローチは、特に限られたデータサンプルのトレーニングにおいて、モデルの過度な適合を防止することを目的としている。
本稿では,下流医療用VQAタスクのモデル一般化を改善するため,事前学習と微調整の両段階における多モードモデルの視覚的エンコーダに勾配誘導パラメータ摂動を組み込む手法を提案する。
小さな摂動は、最適化者の過去の更新方向とは逆の、最適化ランドスケープにおける移動平均勾配の方向と整合して、適応的に生成される。
その後、モデルのビジュアルエンコーダに注入される。
その結果,画像キャプションデータセットが大幅に小さくても,VQA-RADとSLAKEの双方で競合する結果が得られることがわかった。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Graph Masked Autoencoder for Sequential Recommendation [10.319298705782058]
本稿では,自動エンコーダ付きシーケンシャルレコメンダシステム(MAERec, Graph Masked AutoEncoder-enhanced Sequence Recommender System)を提案する。
提案手法は最先端のベースラインモデルを大幅に上回り,データノイズや空間性に対するより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2023-05-08T10:57:56Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Hierarchical Graph-Convolutional Variational AutoEncoding for Generative
Modelling of Human Motion [1.2599533416395767]
人間の動きのモデルは通常、軌跡予測または行動分類に焦点を当てるが、どちらもまれである。
本稿では,階層的変動オートエンコーダと深部グラフ畳み込みニューラルネットワークに基づく新しいアーキテクチャを提案する。
この階層型グラフ共進化型自己エンコーダ(HG-VAE)は、コヒーレントな動作を生成し、分布外データを検出し、モデルの後部への勾配上昇による欠落データを出力できることを示す。
論文 参考訳(メタデータ) (2021-11-24T16:21:07Z) - PRECODE - A Generic Model Extension to Prevent Deep Gradient Leakage [0.8029049649310213]
ニューラルネットワークの協調トレーニングは、異なるクライアント間で勾配情報を交換することで、分散データを活用する。
プライバシーを高めるために勾配摂動技術が提案されているが、モデル性能の低下、収束時間の増加、データ要求の増加といったコストが伴う。
任意のモデルアーキテクチャの汎用拡張として使用できるPRivacy EnhanCing mODulEであるPrepreCODEを紹介する。
論文 参考訳(メタデータ) (2021-08-10T14:43:17Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Robust Optimization as Data Augmentation for Large-scale Graphs [117.2376815614148]
学習中に勾配に基づく逆方向摂動を伴うノード特徴を反復的に拡張するFLAG(Free Large-scale Adversarial Augmentation on Graphs)を提案する。
FLAGはグラフデータに対する汎用的なアプローチであり、ノード分類、リンク予測、グラフ分類タスクで普遍的に機能する。
論文 参考訳(メタデータ) (2020-10-19T21:51:47Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。