論文の概要: RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection
- arxiv url: http://arxiv.org/abs/2406.04906v1
- Date: Fri, 7 Jun 2024 12:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:01:29.411777
- Title: RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection
- Title(参考訳): RU-AI: マシン生成コンテンツ検出のための大規模マルチモーダルデータセット
- Authors: Liting Huang, Zhihao Zhang, Yiran Zhang, Xiyue Zhou, Shoujin Wang,
- Abstract要約: 本稿では,テキスト,画像,音声中の機械生成コンテンツを検出するための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205の3つの大きな公開データセットから構築されています。
マルチモーダル埋め込みモジュールを多層パーセプトロンネットワークに組み込んだ統一モデルにより,データの起源を効果的に決定できる。
- 参考スコア(独自算出の注目度): 11.265512559447986
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent advancements in generative AI models, which can create realistic and human-like content, are significantly transforming how people communicate, create, and work. While the appropriate use of generative AI models can benefit the society, their misuse poses significant threats to data reliability and authentication. However, due to a lack of aligned multimodal datasets, effective and robust methods for detecting machine-generated content are still in the early stages of development. In this paper, we introduce RU-AI, a new large-scale multimodal dataset designed for the robust and efficient detection of machine-generated content in text, image, and voice. Our dataset is constructed from three large publicly available datasets: Flickr8K, COCO, and Places205, by combining the original datasets and their corresponding machine-generated pairs. Additionally, experimental results show that our proposed unified model, which incorporates a multimodal embedding module with a multilayer perceptron network, can effectively determine the origin of the data (i.e., original data samples or machine-generated ones) from RU-AI. However, future work is still required to address the remaining challenges posed by RU-AI. The source code and dataset are available at https://github.com/ZhihaoZhang97/RU-AI.
- Abstract(参考訳): 現実的で人間的なコンテンツを作ることができる生成AIモデルの最近の進歩は、人々がコミュニケーションし、創造し、働く方法を大きく変えつつある。
生成AIモデルの適切な使用は社会に恩恵をもたらすが、それらの誤用はデータの信頼性と認証に重大な脅威をもたらす。
しかし、アライメントされたマルチモーダルデータセットが欠如しているため、マシン生成コンテンツを検出する効果的なロバストな方法はまだ開発の初期段階にある。
本稿では,テキスト,画像,音声中の機械生成内容の堅牢かつ効率的な検出を目的とした大規模マルチモーダルデータセットであるRU-AIを紹介する。
我々のデータセットは、Flickr8K、COCO、Places205の3つの大きな公開データセットから構築されています。
さらに,マルチモーダル埋め込みモジュールを多層パーセプトロンネットワークに組み込んだ統一モデルにより,RU-AIからデータ(原データサンプルや機械生成のもの)の出自を効果的に決定できることを示す。
しかし、RU-AIがもたらした残りの課題に対処するためには、今後の作業が必要である。
ソースコードとデータセットはhttps://github.com/ZhihaoZhang97/RU-AIで公開されている。
関連論文リスト
- SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQAは200万以上の質問応答対を含む大規模な合成マルチモーダルデータセットである。
我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張世代に適用する上でも非常に効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-28T01:14:43Z) - MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion [25.44529512862336]
MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
論文 参考訳(メタデータ) (2024-03-18T11:35:18Z) - MC-DBN: A Deep Belief Network-Based Model for Modality Completion [3.7020486533725605]
我々は、MC-DBN(Modality Completion Deep Belief Network Based Model)を提案する。
このアプローチは、完全なデータの暗黙的な特徴を利用して、それ自体と追加の不完全なデータの間のギャップを補う。
拡張されたマルチモーダルデータは、実世界のダイナミックな性質と密接に一致し、モデルの有効性を高める。
論文 参考訳(メタデータ) (2024-02-15T08:21:50Z) - IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition [0.19791587637442667]
クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。
我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
論文 参考訳(メタデータ) (2024-02-01T22:37:33Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Exploiting the Potential of Datasets: A Data-Centric Approach for Model
Robustness [48.70325679650579]
本稿では,既存のディープニューラルネットワークの多くに有効であるデータセット拡張のための新しいアルゴリズムを提案する。
Alibaba GroupとTsinghua Universityが主催するデータ中心の堅牢な学習コンペで、私たちのアルゴリズムは3000以上の競合企業から3位に入った。
論文 参考訳(メタデータ) (2022-03-10T12:16:32Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。