Fugu-MT 論文翻訳(概要): Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation

論文の概要: Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation

arxiv url: http://arxiv.org/abs/2403.02707v1
Date: Tue, 5 Mar 2024 06:57:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 15:47:13.884808
Title: Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation
Title（参考訳）: 勾配誘導モデル摂動による医用視覚質問応答タスクの一般化の促進
Authors: Gang Liu, Hongyang Li, Zerui He, Shenjun Zhong
Abstract要約: 本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
参考スコア（独自算出の注目度）: 16.22199565010318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Leveraging pre-trained visual language models has become a widely adopted approach for improving performance in downstream visual question answering (VQA) applications. However, in the specialized field of medical VQA, the scarcity of available data poses a significant barrier to achieving reliable model generalization. Numerous methods have been proposed to enhance model generalization, addressing the issue from data-centric and model-centric perspectives. Data augmentation techniques are commonly employed to enrich the dataset, while various regularization approaches aim to prevent model overfitting, especially when training on limited data samples. In this paper, we introduce a method that incorporates gradient-guided parameter perturbations to the visual encoder of the multimodality model during both pre-training and fine-tuning phases, to improve model generalization for downstream medical VQA tasks. The small perturbation is adaptively generated by aligning with the direction of the moving average gradient in the optimization landscape, which is opposite to the directions of the optimizer's historical updates. It is subsequently injected into the model's visual encoder. The results show that, even with a significantly smaller pre-training image caption dataset, our approach achieves competitive outcomes on both VQA-RAD and SLAKE datasets.
Abstract（参考訳）: 事前学習された視覚言語モデルを活用することは、下流視覚質問応答(VQA)アプリケーションの性能向上に広く採用されている。しかし、医療用VQAの専門分野において、利用可能なデータの不足は、信頼性の高いモデル一般化を実現する上で重要な障壁となる。データ中心およびモデル中心の観点から、モデル一般化を強化するために多くの方法が提案されている。データ拡張技術はデータセットを豊かにするのに対して、さまざまな正規化アプローチは、特に限られたデータサンプルのトレーニングにおいて、モデルの過度な適合を防止することを目的としている。本稿では,下流医療用VQAタスクのモデル一般化を改善するため,事前学習と微調整の両段階における多モードモデルの視覚的エンコーダに勾配誘導パラメータ摂動を組み込む手法を提案する。小さな摂動は、最適化者の過去の更新方向とは逆の、最適化ランドスケープにおける移動平均勾配の方向と整合して、適応的に生成される。その後、モデルのビジュアルエンコーダに注入される。その結果,画像キャプションデータセットが大幅に小さくても,VQA-RADとSLAKEの双方で競合する結果が得られることがわかった。

関連論文リスト

MeDi: Metadata-Guided Diffusion Models for Mitigating Biases in Tumor Classification [13.350688594462214]
本稿では,このようなメタデータを生成拡散モデルフレームワーク(MeDi)に明示的にモデル化する手法を提案する。 MeDiは、不足しているサブ集団を合成データで対象とする拡張を可能にする。 TCGAの未確認サブポピュレーションに対して,MeDiが高品質な病理像を生成することを実験的に示す。
論文参考訳（メタデータ） (2025-06-20T16:41:25Z)
Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation [20.67671141789497]
主観駆動型生成のための最初のVARに基づくアプローチを提案する。我々は,言語ドリフトを軽減するため,複雑性を低減し,事前蒸留を行うための選択的層チューニングを導入する。提案手法は, 様々な指標において拡散ベースラインを著しく上回り, その実用性を実証する。
論文参考訳（メタデータ） (2025-04-03T14:12:55Z)
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models [25.04763038570959]
ディディショナル・グラディエント・プロジェクション(DiGraP)は、グラデーションからブリッジの正規化や多目的最適化に至るまでの方向性情報を階層的に学習可能な手法である。まず,画像分類による視覚質問回答 (VQA) ベンチマークの分析により,一様・多モードのギャップを埋める。実験結果から,DiGraPは画像分類やVQAタスクにおいて,識別的,生成的バックボーンで既存のベースラインを一貫して上回ることがわかった。
論文参考訳（メタデータ） (2025-02-21T19:31:55Z)
HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文参考訳（メタデータ） (2024-11-02T06:43:54Z)
DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
本稿では,視覚的自己回帰変換器に基づく最初の自己回帰深度推定モデルを提案する。我々の主な貢献は、Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法であるDepthARTである。実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。
論文参考訳（メタデータ） (2024-09-23T13:36:34Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
TED: Accelerate Model Training by Internal Generalization [19.336762953352956]
大規模言語モデルは近年,高いパフォーマンスを示しているが,トレーニングコストが高いため,データセットサイズを圧縮する効率的な方法の必要性が高まっている。本研究では,高プルーニング比下でのオーバーフィッティングの課題に対処するTEDプルーニングを提案する。
論文参考訳（メタデータ） (2024-05-06T07:40:13Z)
Gradient Guidance for Diffusion Models: An Optimization Perspective [45.6080199096424]
本稿では,ユーザ特定目的の最適化に向けて,事前学習した拡散モデルを適用するための勾配ガイダンスの形式について検討する。我々は,その最適化理論とアルゴリズム設計を体系的に研究するために,誘導拡散の数学的枠組みを確立する。
論文参考訳（メタデータ） (2024-04-23T04:51:02Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
Robust Optimization as Data Augmentation for Large-scale Graphs [117.2376815614148]
学習中に勾配に基づく逆方向摂動を伴うノード特徴を反復的に拡張するFLAG(Free Large-scale Adversarial Augmentation on Graphs)を提案する。 FLAGはグラフデータに対する汎用的なアプローチであり、ノード分類、リンク予測、グラフ分類タスクで普遍的に機能する。
論文参考訳（メタデータ） (2020-10-19T21:51:47Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。