論文の概要: AI-generated Content for Various Data Modalities: A Survey
- arxiv url: http://arxiv.org/abs/2308.14177v2
- Date: Mon, 4 Sep 2023 06:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 02:48:06.884771
- Title: AI-generated Content for Various Data Modalities: A Survey
- Title(参考訳): さまざまなデータモダリティのためのAI生成コンテンツ:調査
- Authors: Lin Geng Foo, Hossein Rahmani, Jun Liu
- Abstract要約: AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
我々は、単一のモダリティと相互モダリティの両方を含む、異なるデータモダリティにわたるAIGC手法の包括的なレビューを提供する。
- 参考スコア(独自算出の注目度): 17.787268628612765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated content (AIGC) methods aim to produce text, images, videos, 3D
assets, and other media using AI algorithms. Due to its wide range of
applications and the demonstrated potential of recent works, AIGC developments
have been attracting lots of attention recently, and AIGC methods have been
developed for various data modalities, such as image, video, text, 3D shape (as
voxels, point clouds, meshes, and neural implicit fields), 3D scene, 3D human
avatar (body and head), 3D motion, and audio -- each presenting different
characteristics and challenges. Furthermore, there have also been many
significant developments in cross-modality AIGC methods, where generative
methods can receive conditioning input in one modality and produce outputs in
another. Examples include going from various modalities to image, video, 3D
shape, 3D scene, 3D avatar (body and head), 3D motion (skeleton and avatar),
and audio modalities. In this paper, we provide a comprehensive review of AIGC
methods across different data modalities, including both single-modality and
cross-modality methods, highlighting the various challenges, representative
works, and recent technical directions in each setting. We also survey the
representative datasets throughout the modalities, and present comparative
results for various modalities. Moreover, we also discuss the challenges and
potential future research directions.
- Abstract(参考訳): AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
幅広い応用と最近の研究の可能性を実証したAIGCの開発が近年注目を集めており、画像、ビデオ、テキスト、三次元形状(ボクセル、点雲、メッシュ、神経暗黙界など)、3Dシーン、3Dヒューマンアバター(体と頭)、3Dモーション、オーディオなど、さまざまなデータモダリティに対してAIGC手法が開発されている。
さらに、一方のモダリティにおいて条件入力を受け取り、他方のモダリティで出力を出力する生成手法として、相互モダリティAIGC法において多くの重要な発展があった。
例えば、様々なモダリティから画像、ビデオ、3D形状、3Dシーン、3Dアバター(体と頭)、3Dモーション(骨格とアバター)、オーディオモダリティなどがある。
本稿では,個別モダリティ法とクロスモダリティ法の両方を含む,異なるデータモダリティにまたがるaigc手法の包括的レビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性について述べる。
また,モダリティ全体の代表データセットを調査し,様々なモダリティの比較結果を示す。
さらに,今後の課題と今後の課題についても考察する。
関連論文リスト
- 3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities [57.444435654131006]
3D Gaussian Splatting (3DGS) は、3D表現の主流となる可能性を持つ顕著な手法として登場した。
本調査は,複数視点から既存の3DGS関連作品を分析することを目的としている。
論文 参考訳(メタデータ) (2024-07-24T16:53:17Z) - Markerless Multi-view 3D Human Pose Estimation: a survey [0.49157446832511503]
3D人間のポーズ推定は、複数の関節を検知することで、シーン内のすべての個人の骨格を再構築することを目的としている。
3Dポーズの再構築に関わるすべての課題を解決する方法はまだない。
さらに、高い精度の3Dポーズを計算コストで迅速に推測できるアプローチを開発するためには、さらなる研究が必要である。
論文 参考訳(メタデータ) (2024-07-04T10:44:35Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - A Comprehensive Survey on 3D Content Generation [148.434661725242]
3Dコンテンツ生成は学術的価値と実践的価値の両方を示している。
新しい分類法が提案され,既存のアプローチを3Dネイティブ生成法,2D先行3D生成法,ハイブリッド3D生成法という3つのタイプに分類する。
論文 参考訳(メタデータ) (2024-02-02T06:20:44Z) - Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive
Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。
追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。
本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T09:39:05Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。