Fugu-MT 論文翻訳(概要): AI-Generated Content (AIGC) for Various Data Modalities: A Survey

論文の概要: AI-Generated Content (AIGC) for Various Data Modalities: A Survey

arxiv url: http://arxiv.org/abs/2308.14177v5
Date: Sun, 19 Jan 2025 17:43:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:18.674384
Title: AI-Generated Content (AIGC) for Various Data Modalities: A Survey
Title（参考訳）: さまざまなデータモダリティのためのAIGC(AI-Generated Content)の調査
Authors: Lin Geng Foo, Hossein Rahmani, Jun Liu,
Abstract要約: AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。本稿では、単一モダリティ法と相互モダリティ法の両方を含む、異なるデータモダリティにわたるAIGC手法の包括的なレビューを提供する。
参考スコア（独自算出の注目度）: 15.826383156183033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI-generated content (AIGC) methods aim to produce text, images, videos, 3D assets, and other media using AI algorithms. Due to its wide range of applications and the potential of recent works, AIGC developments -- especially in Machine Learning (ML) and Deep Learning (DL) -- have been attracting significant attention, and this survey focuses on comprehensively reviewing such advancements in ML/DL. AIGC methods have been developed for various data modalities, such as image, video, text, 3D shape, 3D scene, 3D human avatar, 3D motion, and audio -- each presenting unique characteristics and challenges. Furthermore, there have been significant developments in cross-modality AIGC methods, where generative methods receive conditioning input in one modality and produce outputs in another. Examples include going from various modalities to image, video, 3D, and audio. This paper provides a comprehensive review of AIGC methods across different data modalities, including both single-modality and cross-modality methods, highlighting the various challenges, representative works, and recent technical directions in each setting. We also survey the representative datasets throughout the modalities, and present comparative results for various modalities. Moreover, we discuss the typical applications of AIGC methods in various domains, challenges, and future research directions.
Abstract（参考訳）: AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。特に機械学習(ML)とディープラーニング(DL)におけるAIGCの開発は、幅広い応用と最近の研究の可能性から大きな注目を集めており、この調査は、ML/DLのこうした進歩を包括的にレビューすることに焦点を当てている。 AIGCメソッドは、画像、ビデオ、テキスト、3D形状、3Dシーン、3D人間のアバター、3Dモーション、オーディオなど、さまざまなデータモダリティのために開発されている。さらに,1つのモードで条件付け入力を受け取り,別のモードで出力を出力するAIGC法が開発されている。例えば、様々なモダリティからイメージ、ビデオ、3D、オーディオへと移行する。本稿では,複数のデータモダリティにまたがるAIGC手法の総合的なレビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性を明らかにする。また,各モーダルについて代表的データセットを調査し,様々なモーダルについて比較した。さらに,様々な分野におけるAIGC手法の典型的な応用,課題,今後の研究方向性について論じる。

関連論文リスト

AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models [78.08374249341514]
AI生成コンテンツ(AIGC)の急速な発展は、誤情報を拡散するAIGIの誤用につながった。大規模で包括的なデータセットであるHolmes-Setを導入し、画像がAI生成されているかどうかを解説したインストラクションチューニングデータセットを含む。本研究は,MLLMの構造化説明と品質管理によるデータ生成を効率化する,Multi-Expert Juryと呼ばれる効率的なデータアノテーション手法を提案する。さらに,視覚専門家による事前学習,教師付き微調整,直接選好最適化を含む3段階学習フレームワークであるHolmes Pipelineを提案する。
論文参考訳（メタデータ） (2025-07-03T14:26:31Z)
How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM [39.65493154187172]
大規模言語モデル(LLM)は、3D理解タスクを強化するために利用されており、従来のコンピュータビジョン手法を超越する可能性を示している。本稿では,既存の手法を3つの分野に分類する分類法を提案する。2次元視覚データから3次元理解を導出するイメージベース手法,3次元表現を直接扱うポイントクラウド方式,複数データストリームを組み合わせたハイブリッドモダリティ方式である。
論文参考訳（メタデータ） (2025-04-08T08:11:39Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
The Evolution and Future Perspectives of Artificial Intelligence Generated Content [7.586328912947784]
レビューでは、AIGCの進化が4つの発展的なマイルストーンを辿っている。本研究は,AIGCモデルの選択と最適化における研究者や実践者の指導を目的とする。
論文参考訳（メタデータ） (2024-12-02T20:16:40Z)
Generative Artificial Intelligence Meets Synthetic Aperture Radar: A Survey [49.29751866761522]
本稿では,GenAIとSARの交差点について検討する。まず、SAR分野における一般的なデータ生成ベースのアプリケーションについて説明する。次に、最新のGenAIモデルの概要を体系的にレビューする。最後に、SARドメインの対応するアプリケーションも含まれる。
論文参考訳（メタデータ） (2024-11-05T03:06:00Z)
A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities [2.916558661202724]
人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。 HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。本稿は,2014年から2024年までのHARの最新の進歩に関する包括的調査である。
論文参考訳（メタデータ） (2024-09-15T10:04:44Z)
3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities [57.444435654131006]
3D Gaussian Splatting (3DGS) は、3D表現の主流となる可能性を持つ顕著な手法として登場した。本調査は,複数視点から既存の3DGS関連作品を分析することを目的としている。
論文参考訳（メタデータ） (2024-07-24T16:53:17Z)
Markerless Multi-view 3D Human Pose Estimation: a survey [0.49157446832511503]
3D人間のポーズ推定は、複数の関節を検知することで、シーン内のすべての個人の骨格を再構築することを目的としている。 3Dポーズの再構築に関わるすべての課題を解決する方法はまだない。さらに、高い精度の3Dポーズを計算コストで迅速に推測できるアプローチを開発するためには、さらなる研究が必要である。
論文参考訳（メタデータ） (2024-07-04T10:44:35Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。 2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文参考訳（メタデータ） (2024-03-14T16:13:00Z)
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。 2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文参考訳（メタデータ） (2024-03-12T10:04:08Z)
A Comprehensive Survey on 3D Content Generation [148.434661725242]
3Dコンテンツ生成は学術的価値と実践的価値の両方を示している。新しい分類法が提案され,既存のアプローチを3Dネイティブ生成法,2D先行3D生成法,ハイブリッド3D生成法という3つのタイプに分類する。
論文参考訳（メタデータ） (2024-02-02T06:20:44Z)
Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文参考訳（メタデータ） (2023-10-24T09:39:05Z)
Bridging MDE and AI: A Systematic Review of Domain-Specific Languages and Model-Driven Practices in AI Software Systems Engineering [1.4853133497896698]
本研究の目的は、AIソフトウェアシステムのエンジニアリングを支援するために、DSLに依存した既存のモデル駆動アプローチを検討することである。 AIにMDEを使うことはまだ初期段階にあり、広く使われているツールやメソッドはひとつもない。
論文参考訳（メタデータ） (2023-07-10T14:38:38Z)
UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文参考訳（メタデータ） (2023-06-19T07:03:45Z)
A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。 AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文参考訳（メタデータ） (2023-03-07T20:36:13Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Human Action Recognition from Various Data Modalities: A Review [37.07491839026713]
人間の行動認識(HAR)は、人間の行動を理解し、各行動にラベルを割り当てることを目指しています。 HARには幅広い用途があり、コンピュータビジョンの分野で注目を集めています。本稿では,入力データモダリティ型に基づくHARの深層学習手法の最近の進歩について考察する。
論文参考訳（メタデータ） (2020-12-22T07:37:43Z)
Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文参考訳（メタデータ） (2020-11-25T10:18:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。