論文の概要: Image, Text, and Speech Data Augmentation using Multimodal LLMs for Deep Learning: A Survey
- arxiv url: http://arxiv.org/abs/2501.18648v1
- Date: Wed, 29 Jan 2025 16:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:05.095663
- Title: Image, Text, and Speech Data Augmentation using Multimodal LLMs for Deep Learning: A Survey
- Title(参考訳): 深層学習のためのマルチモーダルLLMを用いた画像, テキスト, 音声データ拡張
- Authors: Ranjan Sapkota, Shaina Raza, Maged Shoman, Achyut Paudel, Manoj Karkee,
- Abstract要約: 研究は、従来の機械学習(ML)とディープラーニング(DL)アプローチから、大規模言語モデル(LLM)の活用へと移行した。
マルチモダリティ、データの強化、一般化の強化、深層畳み込みニューラルネットワークのトレーニングにおけるオーバーフィッティング。
この調査は将来の研究の基盤として機能し、ディープラーニングアプリケーションのためのデータセットの品質と多様性を向上させるためにマルチモーダル LLM の使用を洗練・拡張することを目的としている。
- 参考スコア(独自算出の注目度): 2.8777530051393314
- License:
- Abstract: In the past five years, research has shifted from traditional Machine Learning (ML) and Deep Learning (DL) approaches to leveraging Large Language Models (LLMs) , including multimodality, for data augmentation to enhance generalization, and combat overfitting in training deep convolutional neural networks. However, while existing surveys predominantly focus on ML and DL techniques or limited modalities (text or images), a gap remains in addressing the latest advancements and multi-modal applications of LLM-based methods. This survey fills that gap by exploring recent literature utilizing multimodal LLMs to augment image, text, and audio data, offering a comprehensive understanding of these processes. We outlined various methods employed in the LLM-based image, text and speech augmentation, and discussed the limitations identified in current approaches. Additionally, we identified potential solutions to these limitations from the literature to enhance the efficacy of data augmentation practices using multimodal LLMs. This survey serves as a foundation for future research, aiming to refine and expand the use of multimodal LLMs in enhancing dataset quality and diversity for deep learning applications. (Surveyed Paper GitHub Repo: https://github.com/WSUAgRobotics/data-aug-multi-modal-llm. Keywords: LLM data augmentation, LLM text data augmentation, LLM image data augmentation, LLM speech data augmentation, audio augmentation, voice augmentation, chatGPT for data augmentation, DeepSeek R1 text data augmentation, DeepSeek R1 image augmentation, Image Augmentation using LLM, Text Augmentation using LLM, LLM data augmentation for deep learning applications)
- Abstract(参考訳): 過去5年間で、研究は、従来の機械学習(ML)とディープラーニング(DL)アプローチから、マルチモーダリティを含む大規模言語モデル(LLM)を活用して、一般化を向上するためのデータ拡張、深層畳み込みニューラルネットワークのトレーニングにおけるオーバーフィットとの戦いへの対処へと移行してきた。
しかし、既存の調査は主にMLとDL技術、あるいは限られたモダリティ(テキストや画像)に焦点を当てているが、LLMベースの手法の最新の進歩とマルチモーダルな応用に対処するためのギャップは依然として残っている。
本調査は, 画像, テキスト, 音声データの拡張にマルチモーダル LLM を用いた最近の文献を探索し, それらの過程を包括的に理解することによって, そのギャップを埋めるものである。
我々は,LLMに基づく画像,テキスト,音声の強調に使用される様々な手法について概説し,現状のアプローチにおける限界について考察した。
さらに,マルチモーダルLLMを用いたデータ拡張実践の有効性を高めるため,文献からこれらの制限に対する潜在的な解決策を見出した。
この調査は将来の研究の基盤として機能し、ディープラーニングアプリケーションのためのデータセットの品質と多様性を向上させるためにマルチモーダル LLM の使用を洗練・拡張することを目的としている。
(Surveyed Paper GitHub Repo: https://github.com/WSUAgRobotics/data-aug-multi-modal-llm. Keywords: LLM data augmentation, LLM text data augmentation, LLM image data augmentation, LLM speech data augmentation, audio augmentation, voice augmentation, chatGPT for data augmentation, DeepSeek R1 text data augmentation, DeepSeek R1 image augmentation, Image Augmentation using LLM using Text Augmentation, LLM data augmentation for Deep Learning applications)
関連論文リスト
- Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - How to Bridge the Gap between Modalities: Survey on Multimodal Large Language Model [12.358079352117699]
テキストや画像,音声などを含むマルチモーダルデータの処理にLLMを統合したマルチモーダル大規模言語モデル(MLLM)について検討する。
MLLMはマルチモーダルデータのセマンティックギャップに対処する上で、誤った出力につながる可能性がある。
効果的なモダリティアライメントの実装は、LLMが環境問題に対処し、アクセシビリティを高めるのに役立つ。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。