論文の概要: AI-Generated Content (AIGC) for Various Data Modalities: A Survey
- arxiv url: http://arxiv.org/abs/2308.14177v5
- Date: Sun, 19 Jan 2025 17:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:51.772976
- Title: AI-Generated Content (AIGC) for Various Data Modalities: A Survey
- Title(参考訳): さまざまなデータモダリティのためのAIGC(AI-Generated Content)の調査
- Authors: Lin Geng Foo, Hossein Rahmani, Jun Liu,
- Abstract要約: AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
本稿では、単一モダリティ法と相互モダリティ法の両方を含む、異なるデータモダリティにわたるAIGC手法の包括的なレビューを提供する。
- 参考スコア(独自算出の注目度): 15.826383156183033
- License:
- Abstract: AI-generated content (AIGC) methods aim to produce text, images, videos, 3D assets, and other media using AI algorithms. Due to its wide range of applications and the potential of recent works, AIGC developments -- especially in Machine Learning (ML) and Deep Learning (DL) -- have been attracting significant attention, and this survey focuses on comprehensively reviewing such advancements in ML/DL. AIGC methods have been developed for various data modalities, such as image, video, text, 3D shape, 3D scene, 3D human avatar, 3D motion, and audio -- each presenting unique characteristics and challenges. Furthermore, there have been significant developments in cross-modality AIGC methods, where generative methods receive conditioning input in one modality and produce outputs in another. Examples include going from various modalities to image, video, 3D, and audio. This paper provides a comprehensive review of AIGC methods across different data modalities, including both single-modality and cross-modality methods, highlighting the various challenges, representative works, and recent technical directions in each setting. We also survey the representative datasets throughout the modalities, and present comparative results for various modalities. Moreover, we discuss the typical applications of AIGC methods in various domains, challenges, and future research directions.
- Abstract(参考訳): AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
特に機械学習(ML)とディープラーニング(DL)におけるAIGCの開発は、幅広い応用と最近の研究の可能性から大きな注目を集めており、この調査は、ML/DLのこうした進歩を包括的にレビューすることに焦点を当てている。
AIGCメソッドは、画像、ビデオ、テキスト、3D形状、3Dシーン、3D人間のアバター、3Dモーション、オーディオなど、さまざまなデータモダリティのために開発されている。
さらに,1つのモードで条件付け入力を受け取り,別のモードで出力を出力するAIGC法が開発されている。
例えば、様々なモダリティからイメージ、ビデオ、3D、オーディオへと移行する。
本稿では,複数のデータモダリティにまたがるAIGC手法の総合的なレビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性を明らかにする。
また,各モーダルについて代表的データセットを調査し,様々なモーダルについて比較した。
さらに,様々な分野におけるAIGC手法の典型的な応用,課題,今後の研究方向性について論じる。
関連論文リスト
- The Evolution and Future Perspectives of Artificial Intelligence Generated Content [7.586328912947784]
レビューでは、AIGCの進化が4つの発展的なマイルストーンを辿っている。
本研究は,AIGCモデルの選択と最適化における研究者や実践者の指導を目的とする。
論文 参考訳(メタデータ) (2024-12-02T20:16:40Z) - Generative Artificial Intelligence Meets Synthetic Aperture Radar: A Survey [49.29751866761522]
本稿では,GenAIとSARの交差点について検討する。
まず、SAR分野における一般的なデータ生成ベースのアプリケーションについて説明する。
次に、最新のGenAIモデルの概要を体系的にレビューする。
最後に、SARドメインの対応するアプリケーションも含まれる。
論文 参考訳(メタデータ) (2024-11-05T03:06:00Z) - A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities [2.916558661202724]
人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。
HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。
本稿は,2014年から2024年までのHARの最新の進歩に関する包括的調査である。
論文 参考訳(メタデータ) (2024-09-15T10:04:44Z) - 3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities [57.444435654131006]
3D Gaussian Splatting (3DGS) は、3D表現の主流となる可能性を持つ顕著な手法として登場した。
本調査は,複数視点から既存の3DGS関連作品を分析することを目的としている。
論文 参考訳(メタデータ) (2024-07-24T16:53:17Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - Bridging MDE and AI: A Systematic Review of Domain-Specific Languages and Model-Driven Practices in AI Software Systems Engineering [1.4853133497896698]
本研究の目的は、AIソフトウェアシステムのエンジニアリングを支援するために、DSLに依存した既存のモデル駆動アプローチを検討することである。
AIにMDEを使うことはまだ初期段階にあり、広く使われているツールやメソッドはひとつもない。
論文 参考訳(メタデータ) (2023-07-10T14:38:38Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Human Action Recognition from Various Data Modalities: A Review [37.07491839026713]
人間の行動認識(HAR)は、人間の行動を理解し、各行動にラベルを割り当てることを目指しています。
HARには幅広い用途があり、コンピュータビジョンの分野で注目を集めています。
本稿では,入力データモダリティ型に基づくHARの深層学習手法の最近の進歩について考察する。
論文 参考訳(メタデータ) (2020-12-22T07:37:43Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。