論文の概要: Batch Augmentation with Unimodal Fine-tuning for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2505.06592v1
- Date: Sat, 10 May 2025 10:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.929834
- Title: Batch Augmentation with Unimodal Fine-tuning for Multimodal Learning
- Title(参考訳): 単モーダルファインチューニングによるマルチモーダル学習のためのバッチ強化
- Authors: H M Dipu Kabir, Subrota Kumar Mondal, Mohammad Ali Moni,
- Abstract要約: 超音波画像から胎児の臓器を検出するために,一過性微調整によるバッチ拡張を提案する。
バッチ拡張による画像に、微調整された初期層を持つニューラルネットワークを適用し、特徴量を求める。
UPMC Foodデータセット上で、最先端(SOTA)のパフォーマンスをほぼ享受しています。
- 参考スコア(独自算出の注目度): 3.635602838654497
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper proposes batch augmentation with unimodal fine-tuning to detect the fetus's organs from ultrasound images and associated clinical textual information. We also prescribe pre-training initial layers with investigated medical data before the multimodal training. At first, we apply a transferred initialization with the unimodal image portion of the dataset with batch augmentation. This step adjusts the initial layer weights for medical data. Then, we apply neural networks (NNs) with fine-tuned initial layers to images in batches with batch augmentation to obtain features. We also extract information from descriptions of images. We combine this information with features obtained from images to train the head layer. We write a dataloader script to load the multimodal data and use existing unimodal image augmentation techniques with batch augmentation for the multimodal data. The dataloader brings a new random augmentation for each batch to get a good generalization. We investigate the FPU23 ultrasound and UPMC Food-101 multimodal datasets. The multimodal large language model (LLM) with the proposed training provides the best results among the investigated methods. We receive near state-of-the-art (SOTA) performance on the UPMC Food-101 dataset. We share the scripts of the proposed method with traditional counterparts at the following repository: github.com/dipuk0506/multimodal
- Abstract(参考訳): 本稿では,超音波画像と関連する臨床テキスト情報から胎児の臓器を検出するために,一過性微調整によるバッチ増強を提案する。
また,マルチモーダルトレーニング前の医療データを用いて,事前学習初期層を定めている。
まず、バッチ増分によるデータセットの非モーダル画像部分の変換初期化を適用する。
このステップは、医療データの初期層重みを調整する。
次に,ニューラルネットワーク(NN)と微調整初期層をバッチ画像に適用して特徴量を求める。
また、画像の記述から情報も抽出する。
この情報と画像から得られた特徴を組み合わせて、ヘッドレイヤをトレーニングします。
我々は,マルチモーダルデータを読み込むためのデータローダスクリプトを作成し,既存の非モーダル画像拡張技術を用いて,マルチモーダルデータのバッチ拡張を行う。
データローダは、良い一般化を得るために、各バッチに対して新しいランダム拡張をもたらす。
FPU23超音波とUPMC Food-101マルチモーダルデータセットについて検討した。
提案手法を用いた多モード大言語モデル (LLM) は, 提案手法の最良の結果を提供する。
UPMC Food-101データセットでは、ほぼ最先端(SOTA)のパフォーマンスが得られます。
提案手法のスクリプトを,従来のリポジトリと共有する。 github.com/dipuk0506/multimodal。
関連論文リスト
- Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-20T17:48:20Z) - Multiscale Progressive Text Prompt Network for Medical Image
Segmentation [10.121625177837931]
本稿では,先行知識としてプログレッシブテキストプロンプトを用いてセグメンテーションプロセスを導くことを提案する。
このモデルでは,データアノテーションのコストを低くして高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-06-30T23:37:16Z) - Training Multimedia Event Extraction With Generated Images and Captions [6.291564630983316]
CAMEL(Cross-modality Augmented Multimedia Event Learning)を提案する。
まず、テキストと画像のラベル付きユニモーダルデータセットから始め、Stable Diffusionのようなオフザシェルフ画像生成器とBLIPのようなイメージキャプタを使って、欠落したモダリティを生成する。
ドメイン間で有効な堅牢な機能を学ぶために、反復的かつ段階的なトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-06-15T09:01:33Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。