論文の概要: RU-AI: A Large Multimodal Dataset for Machine-Generated Content Detection
- arxiv url: http://arxiv.org/abs/2406.04906v2
- Date: Thu, 19 Dec 2024 04:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:28.664326
- Title: RU-AI: A Large Multimodal Dataset for Machine-Generated Content Detection
- Title(参考訳): RU-AI: マシン生成コンテンツ検出のための大規模マルチモーダルデータセット
- Authors: Liting Huang, Zhihao Zhang, Yiran Zhang, Xiyue Zhou, Shoujin Wang,
- Abstract要約: 本稿では,テキスト,画像,音声中の機械生成コンテンツの堅牢かつ効率的な検出のための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205という3つの大きな公開データセットに基づいて構築されています。
その結果、既存のモデルは、データセットのトレーニング後に正確で堅牢な分類を達成するのに依然として苦労していることが明らかとなった。
- 参考スコア(独自算出の注目度): 11.265512559447986
- License:
- Abstract: The recent generative AI models' capability of creating realistic and human-like content is significantly transforming the ways in which people communicate, create and work. The appropriate use of generative AI models can benefit society, while their misuse poses threats to the society. However, the lack of aligned multimodal datasets has inhibited the development of effective and robust methods for detecting machine-generated content, particularly in triple-modality settings (e.g., text, image, and voice). In this paper, we introduce RU-AI, a new large-scale multimodal dataset for robust and efficient detection of machine-generated content in text, image and voice. Our dataset is constructed on the basis of three large publicly available datasets: Flickr8K, COCO and Places205, by adding their corresponding AI duplicates, resulting total of 1,475,370 data instances. In addition, we create a noise variant of each modality of the datasets aiming to analyse the models' robustness. Given our dataset, we conduct extensive experiments with the current SOTA detection methods. The results reveal that existing models still struggle to achieve accurate and robust classification after training on our dataset. The RU-AI dataset is designed to support the development of detection methods across modalities and can be effectively utilised for identifying machine-generated content. The source code and dataset are available at https://github.com/ZhihaoZhang97/RU-AI.
- Abstract(参考訳): 最近のジェネレーティブAIモデルの、リアルで人間らしいコンテンツを作る能力は、人々がコミュニケーションし、創造し、働く方法を大きく変えている。
生成的AIモデルの適切な使用は社会に利益をもたらすが、その誤用は社会に脅威をもたらす。
しかし、アライメントされたマルチモーダルデータセットの欠如は、特に三重モード設定(例えば、テキスト、画像、音声)において、機械生成コンテンツを検出する効果的で堅牢な方法の開発を阻害している。
本稿では,テキスト,画像,音声中の機械生成内容の堅牢かつ効率的な検出のための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205の3つの大規模な公開データセットに基づいて構築されています。
さらに、モデルのロバスト性を分析することを目的としたデータセットの各モータリティのノイズ変種を作成する。
我々のデータセットから、現在のSOTA検出手法で広範な実験を行う。
その結果、既存のモデルは、データセットのトレーニング後に正確で堅牢な分類を達成するのに依然として苦労していることが明らかとなった。
RU-AIデータセットは、モダリティを越えて検出方法の開発を支援するように設計されており、マシン生成コンテンツを特定するために効果的に利用することができる。
ソースコードとデータセットはhttps://github.com/ZhihaoZhang97/RU-AIで公開されている。
関連論文リスト
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case [8.26451988845854]
本研究では,人間の行動認識(HAR)に骨格と視覚的手がかりをベースとした新しいアプローチを提案する。
特徴表現を最適化するために,スケルトンモダリティを条件とした言語モデルに対して学習可能なプロンプトを用いる。
建設現場における実世界のロボット応用に適した新しいデータセットを導入し,視覚,骨格,深度データモダリティを特徴とする。
論文 参考訳(メタデータ) (2024-10-02T19:10:23Z) - Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。
異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。
我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文 参考訳(メタデータ) (2024-09-20T09:53:27Z) - Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。
さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-06-21T10:33:09Z) - MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion [25.44529512862336]
MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
論文 参考訳(メタデータ) (2024-03-18T11:35:18Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Exploiting the Potential of Datasets: A Data-Centric Approach for Model
Robustness [48.70325679650579]
本稿では,既存のディープニューラルネットワークの多くに有効であるデータセット拡張のための新しいアルゴリズムを提案する。
Alibaba GroupとTsinghua Universityが主催するデータ中心の堅牢な学習コンペで、私たちのアルゴリズムは3000以上の競合企業から3位に入った。
論文 参考訳(メタデータ) (2022-03-10T12:16:32Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。