論文の概要: Detecting Multimedia Generated by Large AI Models: A Survey
- arxiv url: http://arxiv.org/abs/2402.00045v3
- Date: Wed, 7 Feb 2024 06:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:57:32.092397
- Title: Detecting Multimedia Generated by Large AI Models: A Survey
- Title(参考訳): 大規模aiモデルによるマルチメディアの検出:調査
- Authors: Li Lin, Neeraj Gupta, Yue Zhang, Hainan Ren, Chun-Hao Liu, Feng Ding,
Xin Wang, Xin Li, Luisa Verdoliva, Shu Hu
- Abstract要約: この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することである。
メディアモダリティによって分類された検出手法のための新しい分類法を提案する。
本稿では,生成機構,公開データセット,オンライン検出ツールの概要を紹介する。
- 参考スコア(独自算出の注目度): 26.84095559297626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large AI Models (LAIMs), particularly diffusion
models and large language models, has marked a new era where AI-generated
multimedia is increasingly integrated into various aspects of daily life.
Although beneficial in numerous fields, this content presents significant
risks, including potential misuse, societal disruptions, and ethical concerns.
Consequently, detecting multimedia generated by LAIMs has become crucial, with
a marked rise in related research. Despite this, there remains a notable gap in
systematic surveys that focus specifically on detecting LAIM-generated
multimedia. Addressing this, we provide the first survey to comprehensively
cover existing research on detecting multimedia (such as text, images, videos,
audio, and multimodal content) created by LAIMs. Specifically, we introduce a
novel taxonomy for detection methods, categorized by media modality, and
aligned with two perspectives: pure detection (aiming to enhance detection
performance) and beyond detection (adding attributes like generalizability,
robustness, and interpretability to detectors). Additionally, we have presented
a brief overview of generation mechanisms, public datasets, and online
detection tools to provide a valuable resource for researchers and
practitioners in this field. Furthermore, we identify current challenges in
detection and propose directions for future research that address unexplored,
ongoing, and emerging issues in detecting multimedia generated by LAIMs. Our
aim for this survey is to fill an academic gap and contribute to global AI
security efforts, helping to ensure the integrity of information in the digital
realm. The project link is
https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey.
- Abstract(参考訳): 大規模AIモデル(LAIM)の急速な進歩、特に拡散モデルと大規模言語モデルは、AI生成マルチメディアが日々のさまざまな側面にますます統合される新しい時代を象徴している。
多くの分野において有益であるが、この内容は潜在的な誤用、社会的破壊、倫理的懸念などの重大なリスクをもたらす。
その結果、LAIMによるマルチメディアの検出が重要となり、関連する研究が顕著に増加した。
それにもかかわらず、LAIM生成マルチメディアの検出に特に焦点をあてる体系的な調査には、注目すべきギャップが残っている。
そこで本研究では,laimsが作成したマルチメディア(テキスト,画像,ビデオ,オーディオ,マルチモーダルコンテンツなど)の検出に関する既存の研究を包括的にカバーする最初の調査を行う。
具体的には, メディアモダリティによって分類され, 純粋な検出(検出性能を高めるための試み)と検出(一般化性, 堅牢性, 検出器の解釈性など)という2つの視点に合致する, 検出方法の新しい分類法を提案する。
さらに,この分野の研究者や実践者にとって有用なリソースを提供するために,生成メカニズム,公開データセット,オンライン検出ツールの概要を提示した。
さらに,laimsが生成するマルチメディア検出における未探索,進行中,新興の課題に対処する今後の研究の課題を特定し,今後の方向性を提案する。
この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することであり、デジタル領域における情報の整合性の確保を支援することです。
プロジェクトリンクはhttps://github.com/Purdue-M2/Detect-LAIM- generated-Multimedia-Survey。
関連論文リスト
- Recent Advances in Hate Speech Moderation: Multimodality and the Role of
Large Models [30.874919553344856]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Multi-agent Reinforcement Learning: A Comprehensive Survey [12.033444190665552]
この調査はマルチエージェントシステム(MAS)の領域を掘り下げ、学習の最適制御の複雑さを解き放つことに特に重点を置いている。
本調査の目的は、MASの様々な次元に関する総合的な洞察を提供することであり、無数の機会に光を当てることである。
論文 参考訳(メタデータ) (2023-12-15T23:16:54Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - What's the Situation with Intelligent Mesh Generation: A Survey and
Perspectives [13.081274167488843]
Intelligent Mesh Generation(IMG)は、機械学習技術を利用してメッシュを生成する、新しくて有望な研究分野である。
比較的幼少期であったにもかかわらず、ICGはメッシュ生成技術の適応性と実用性を著しく向上させてきた。
本稿は,現在のIMGの状況について,体系的かつ徹底的な調査を行うことによって,このギャップを埋める試みである。
論文 参考訳(メタデータ) (2022-11-11T05:24:16Z) - A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution
Detection: Solutions and Future Challenges [28.104112546546936]
機械学習モデルは、トレーニング分布から分岐したサンプルに遭遇することが多い。
類似した共有概念にもかかわらず、アウト・オブ・ディストリビューション、オープン・セット、異常検出は独立して研究されている。
本調査は,各分野における多数の卓越した作品について,クロスドメインかつ包括的レビューを行うことを目的としている。
論文 参考訳(メタデータ) (2021-10-26T22:05:31Z) - Families In Wild Multimedia: A Multimodal Database for Recognizing
Kinship [63.27052967981546]
マルチタスク MM キンシップデータセットを初めて公開する。
FIW MMを構築するために,データを自動収集,注釈付け,作成する機構を開発した。
結果は、改善の異なる領域で将来の研究を刺激するエッジケースを強調します。
論文 参考訳(メタデータ) (2020-07-28T22:36:57Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。