論文の概要: AIGC for Various Data Modalities: A Survey
- arxiv url: http://arxiv.org/abs/2308.14177v3
- Date: Sat, 9 Sep 2023 06:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:37:49.785030
- Title: AIGC for Various Data Modalities: A Survey
- Title(参考訳): さまざまなデータモダリティのためのAIGC:調査
- Authors: Lin Geng Foo, Hossein Rahmani, Jun Liu
- Abstract要約: AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
我々は、単一のモダリティと相互モダリティの両方を含む、異なるデータモダリティにわたるAIGC手法の包括的なレビューを提供する。
- 参考スコア(独自算出の注目度): 17.787268628612765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated content (AIGC) methods aim to produce text, images, videos, 3D
assets, and other media using AI algorithms. Due to its wide range of
applications and the demonstrated potential of recent works, AIGC developments
have been attracting lots of attention recently, and AIGC methods have been
developed for various data modalities, such as image, video, text, 3D shape (as
voxels, point clouds, meshes, and neural implicit fields), 3D scene, 3D human
avatar (body and head), 3D motion, and audio -- each presenting different
characteristics and challenges. Furthermore, there have also been many
significant developments in cross-modality AIGC methods, where generative
methods can receive conditioning input in one modality and produce outputs in
another. Examples include going from various modalities to image, video, 3D
shape, 3D scene, 3D avatar (body and head), 3D motion (skeleton and avatar),
and audio modalities. In this paper, we provide a comprehensive review of AIGC
methods across different data modalities, including both single-modality and
cross-modality methods, highlighting the various challenges, representative
works, and recent technical directions in each setting. We also survey the
representative datasets throughout the modalities, and present comparative
results for various modalities. Moreover, we also discuss the challenges and
potential future research directions.
- Abstract(参考訳): AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
幅広い応用と最近の研究の可能性を実証したAIGCの開発が近年注目を集めており、画像、ビデオ、テキスト、三次元形状(ボクセル、点雲、メッシュ、神経暗黙界など)、3Dシーン、3Dヒューマンアバター(体と頭)、3Dモーション、オーディオなど、さまざまなデータモダリティに対してAIGC手法が開発されている。
さらに、一方のモダリティにおいて条件入力を受け取り、他方のモダリティで出力を出力する生成手法として、相互モダリティAIGC法において多くの重要な発展があった。
例えば、様々なモダリティから画像、ビデオ、3D形状、3Dシーン、3Dアバター(体と頭)、3Dモーション(骨格とアバター)、オーディオモダリティなどがある。
本稿では,個別モダリティ法とクロスモダリティ法の両方を含む,異なるデータモダリティにまたがるaigc手法の包括的レビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性について述べる。
また,モダリティ全体の代表データセットを調査し,様々なモダリティの比較結果を示す。
さらに,今後の課題と今後の課題についても考察する。
関連論文リスト
- The Evolution and Future Perspectives of Artificial Intelligence Generated Content [7.586328912947784]
レビューでは、AIGCの進化が4つの発展的なマイルストーンを辿っている。
本研究は,AIGCモデルの選択と最適化における研究者や実践者の指導を目的とする。
論文 参考訳(メタデータ) (2024-12-02T20:16:40Z) - Generative Artificial Intelligence Meets Synthetic Aperture Radar: A Survey [49.29751866761522]
本稿では,GenAIとSARの交差点について検討する。
まず、SAR分野における一般的なデータ生成ベースのアプリケーションについて説明する。
次に、最新のGenAIモデルの概要を体系的にレビューする。
最後に、SARドメインの対応するアプリケーションも含まれる。
論文 参考訳(メタデータ) (2024-11-05T03:06:00Z) - A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities [2.916558661202724]
人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。
HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。
本稿は,2014年から2024年までのHARの最新の進歩に関する包括的調査である。
論文 参考訳(メタデータ) (2024-09-15T10:04:44Z) - 3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities [57.444435654131006]
3D Gaussian Splatting (3DGS) は、3D表現の主流となる可能性を持つ顕著な手法として登場した。
本調査は,複数視点から既存の3DGS関連作品を分析することを目的としている。
論文 参考訳(メタデータ) (2024-07-24T16:53:17Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - Bridging MDE and AI: A Systematic Review of Domain-Specific Languages and Model-Driven Practices in AI Software Systems Engineering [1.4853133497896698]
本研究の目的は、AIソフトウェアシステムのエンジニアリングを支援するために、DSLに依存した既存のモデル駆動アプローチを検討することである。
AIにMDEを使うことはまだ初期段階にあり、広く使われているツールやメソッドはひとつもない。
論文 参考訳(メタデータ) (2023-07-10T14:38:38Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Human Action Recognition from Various Data Modalities: A Review [37.07491839026713]
人間の行動認識(HAR)は、人間の行動を理解し、各行動にラベルを割り当てることを目指しています。
HARには幅広い用途があり、コンピュータビジョンの分野で注目を集めています。
本稿では,入力データモダリティ型に基づくHARの深層学習手法の最近の進歩について考察する。
論文 参考訳(メタデータ) (2020-12-22T07:37:43Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。