論文の概要: T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition
- arxiv url: http://arxiv.org/abs/2409.19734v2
- Date: Wed, 2 Oct 2024 08:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 21:19:41.240372
- Title: T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition
- Title(参考訳): T2VsがVLMと出会う: 視覚的ハームフルネス認識のためのスケーラブルなマルチモーダルデータセット
- Authors: Chen Yeh, You-Ming Chang, Wei-Chen Chiu, Ning Yu,
- Abstract要約: 既存の有害なデータセットは、限られた範囲の有害なオブジェクトの存在によってキュレートされる。
これにより、そのようなデータセットに基づいたメソッドの一般化が妨げられ、誤判断につながる可能性がある。
我々は,インターネットからクロールして4つの生成モデルによって生成された1万枚の画像と1,000本の動画からなる包括的有害データセットを提案する。
- 参考スコア(独自算出の注目度): 24.78672820633581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the risks of encountering inappropriate or harmful content, researchers managed to incorporate several harmful contents datasets with machine learning methods to detect harmful concepts. However, existing harmful datasets are curated by the presence of a narrow range of harmful objects, and only cover real harmful content sources. This hinders the generalizability of methods based on such datasets, potentially leading to misjudgments. Therefore, we propose a comprehensive harmful dataset, Visual Harmful Dataset 11K (VHD11K), consisting of 10,000 images and 1,000 videos, crawled from the Internet and generated by 4 generative models, across a total of 10 harmful categories covering a full spectrum of harmful concepts with nontrivial definition. We also propose a novel annotation framework by formulating the annotation process as a multi-agent Visual Question Answering (VQA) task, having 3 different VLMs "debate" about whether the given image/video is harmful, and incorporating the in-context learning strategy in the debating process. Therefore, we can ensure that the VLMs consider the context of the given image/video and both sides of the arguments thoroughly before making decisions, further reducing the likelihood of misjudgments in edge cases. Evaluation and experimental results demonstrate that (1) the great alignment between the annotation from our novel annotation framework and those from human, ensuring the reliability of VHD11K; (2) our full-spectrum harmful dataset successfully identifies the inability of existing harmful content detection methods to detect extensive harmful contents and improves the performance of existing harmfulness recognition methods; (3) VHD11K outperforms the baseline dataset, SMID, as evidenced by the superior improvement in harmfulness recognition methods. The complete dataset and code can be found at https://github.com/nctu-eva-lab/VHD11K.
- Abstract(参考訳): 不適切または有害なコンテンツに遭遇するリスクに対処するため、研究者はいくつかの有害なコンテンツデータセットを機械学習手法に組み込んで有害な概念を検出することに成功した。
しかし、既存の有害なデータセットは、限られた有害なオブジェクトの存在によってキュレートされ、真の有害なコンテンツソースのみをカバーする。
これにより、そのようなデータセットに基づいたメソッドの一般化が妨げられ、誤判断につながる可能性がある。
そこで本研究では,インターネットからクロールして4つの生成モデルによって生成された1万枚の画像と1,000本の動画からなる包括的有害なデータセットであるVisual Harmful Dataset 11K (VHD11K)を提案する。
また、アノテーション処理をマルチエージェント視覚質問回答(VQA)タスクとして定式化し、与えられた画像/ビデオが有害かどうかを3つの異なるVLMで議論し、議論プロセスに文脈内学習戦略を取り入れることで、新しいアノテーションフレームワークを提案する。
したがって、VLMは、決定を下す前に、与えられた画像/ビデオのコンテキストと議論の両側を徹底的に考慮し、さらに、エッジケースにおける誤判断の可能性を低減できる。
評価および実験結果から,(1)新規アノテーションフレームワークからのアノテーションとヒトからのアノテーションの整合性,(2)VHD11Kの信頼性の確保,(2)既存の有害コンテンツ検出手法が有意な有害コンテンツを検出できないこと,および既存の有害コンテンツ認識手法の性能向上,(3)VHD11KがベースラインデータセットSMIDより優れていること,の証明が得られた。
完全なデータセットとコードはhttps://github.com/nctu-eva-lab/VHD11Kで見ることができる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文 参考訳(メタデータ) (2024-10-03T17:10:41Z) - Evidential Deep Partial Multi-View Classification With Discount Fusion [24.139495744683128]
Evidential Deep partial Multi-View Classification (EDP-MVC) と呼ばれる新しいフレームワークを提案する。
欠落したビューに対処するためにK-means命令を使用し、マルチビューデータの完全なセットを作成します。
この暗示されたデータ内の潜在的な衝突や不確実性は、下流の推論の信頼性に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-08-23T14:50:49Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - HOD: A Benchmark Dataset for Harmful Object Detection [3.755082744150185]
有害物体検出のための新しいベンチマークデータセットを提案する。
提案したデータセットには、有害である可能性のある6つのカテゴリにわたる1万以上の画像が含まれている。
我々は,提案したデータセットの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T15:00:38Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Credible Remote Sensing Scene Classification Using Evidential Fusion on
Aerial-Ground Dual-view Images [6.817740582240199]
マルチビュー(マルチソース、マルチモーダル、マルチパースペクティブなど)データはリモートセンシングタスクで頻繁に使用される。
データ品質の問題はさらに明確になり、マルチビューデータの潜在的なメリットが制限される。
深層学習は空中二視点リモートセンシングシーン分類の課題に導入される。
論文 参考訳(メタデータ) (2023-01-02T12:27:55Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。