論文の概要: T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition
- arxiv url: http://arxiv.org/abs/2409.19734v1
- Date: Sun, 29 Sep 2024 15:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:04:08.491825
- Title: T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition
- Title(参考訳): T2VsがVLMと出会う: 視覚的ハームフルネス認識のためのスケーラブルなマルチモーダルデータセット
- Authors: Chen Yeh, You-Ming Chang, Wei-Chen Chiu, Ning Yu,
- Abstract要約: 既存の有害なデータセットは、限られた範囲の有害なオブジェクトの存在によってキュレートされる。
これにより、そのようなデータセットに基づいたメソッドの一般化が妨げられ、誤判断につながる可能性がある。
我々は,インターネットからクロールして4つの生成モデルによって生成された1万枚の画像と1,000本の動画からなる包括的有害データセットを提案する。
- 参考スコア(独自算出の注目度): 24.78672820633581
- License:
- Abstract: To address the risks of encountering inappropriate or harmful content, researchers managed to incorporate several harmful contents datasets with machine learning methods to detect harmful concepts. However, existing harmful datasets are curated by the presence of a narrow range of harmful objects, and only cover real harmful content sources. This hinders the generalizability of methods based on such datasets, potentially leading to misjudgments. Therefore, we propose a comprehensive harmful dataset, Visual Harmful Dataset 11K (VHD11K), consisting of 10,000 images and 1,000 videos, crawled from the Internet and generated by 4 generative models, across a total of 10 harmful categories covering a full spectrum of harmful concepts with nontrivial definition. We also propose a novel annotation framework by formulating the annotation process as a multi-agent Visual Question Answering (VQA) task, having 3 different VLMs "debate" about whether the given image/video is harmful, and incorporating the in-context learning strategy in the debating process. Therefore, we can ensure that the VLMs consider the context of the given image/video and both sides of the arguments thoroughly before making decisions, further reducing the likelihood of misjudgments in edge cases. Evaluation and experimental results demonstrate that (1) the great alignment between the annotation from our novel annotation framework and those from human, ensuring the reliability of VHD11K; (2) our full-spectrum harmful dataset successfully identifies the inability of existing harmful content detection methods to detect extensive harmful contents and improves the performance of existing harmfulness recognition methods; (3) VHD11K outperforms the baseline dataset, SMID, as evidenced by the superior improvement in harmfulness recognition methods. The complete dataset and code can be found at https://github.com/nctu-eva-lab/VHD11K.
- Abstract(参考訳): 不適切または有害なコンテンツに遭遇するリスクに対処するため、研究者はいくつかの有害なコンテンツデータセットを機械学習手法に組み込んで有害な概念を検出することに成功した。
しかし、既存の有害なデータセットは、限られた有害なオブジェクトの存在によってキュレートされ、真の有害なコンテンツソースのみをカバーする。
これにより、そのようなデータセットに基づいたメソッドの一般化が妨げられ、誤判断につながる可能性がある。
そこで本研究では,インターネットからクロールして4つの生成モデルによって生成された1万枚の画像と1,000本の動画からなる包括的有害なデータセットであるVisual Harmful Dataset 11K (VHD11K)を提案する。
また、アノテーション処理をマルチエージェント視覚質問回答(VQA)タスクとして定式化し、与えられた画像/ビデオが有害かどうかを3つの異なるVLMで議論し、議論プロセスに文脈内学習戦略を取り入れることで、新しいアノテーションフレームワークを提案する。
したがって、VLMは、決定を下す前に、与えられた画像/ビデオのコンテキストと議論の両側を徹底的に考慮し、さらに、エッジケースにおける誤判断の可能性を低減できる。
評価および実験結果から,(1)新規アノテーションフレームワークからのアノテーションとヒトからのアノテーションの整合性,(2)VHD11Kの信頼性の確保,(2)既存の有害コンテンツ検出手法が有意な有害コンテンツを検出できないこと,および既存の有害コンテンツ認識手法の性能向上,(3)VHD11KがベースラインデータセットSMIDより優れていること,の証明が得られた。
完全なデータセットとコードはhttps://github.com/nctu-eva-lab/VHD11Kで見ることができる。
関連論文リスト
- Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - HOD: A Benchmark Dataset for Harmful Object Detection [3.755082744150185]
有害物体検出のための新しいベンチマークデータセットを提案する。
提案したデータセットには、有害である可能性のある6つのカテゴリにわたる1万以上の画像が含まれている。
我々は,提案したデータセットの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T15:00:38Z) - How We Define Harm Impacts Data Annotations: Explaining How Annotators
Distinguish Hateful, Offensive, and Toxic Comments [3.8021618306213094]
研究者が「ハーム」を定義する方法がアノテーションの結果に影響を及ぼすかどうかを考察する。
我々は、調和の定義の特徴と注釈者の個人的特徴が、アノテーションがこれらの用語をどう使うかを説明する。
論文 参考訳(メタデータ) (2023-09-12T19:23:40Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Credible Remote Sensing Scene Classification Using Evidential Fusion on
Aerial-Ground Dual-view Images [6.817740582240199]
マルチビュー(マルチソース、マルチモーダル、マルチパースペクティブなど)データはリモートセンシングタスクで頻繁に使用される。
データ品質の問題はさらに明確になり、マルチビューデータの潜在的なメリットが制限される。
深層学習は空中二視点リモートセンシングシーン分類の課題に導入される。
論文 参考訳(メタデータ) (2023-01-02T12:27:55Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。