論文の概要: HateClipSeg: A Segment-Level Annotated Dataset for Fine-Grained Hate Video Detection
- arxiv url: http://arxiv.org/abs/2508.01712v1
- Date: Sun, 03 Aug 2025 10:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.026645
- Title: HateClipSeg: A Segment-Level Annotated Dataset for Fine-Grained Hate Video Detection
- Title(参考訳): HateClipSeg: 微粒なHateビデオ検出のためのセグメントレベルアノテーション付きデータセット
- Authors: Han Wang, Zhuoran Wang, Roy Ka-Wei Lee,
- Abstract要約: HateClipSegはビデオレベルとセグメントレベルのアノテーションを備えた大規模マルチモーダルデータセットである。
私たちの3段階アノテーションプロセスは、アノテータ間の高い合意をもたらす。
結果は現在のモデルにおける大きなギャップを浮き彫りにする。
- 参考スコア(独自算出の注目度): 8.323983138164547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting hate speech in videos remains challenging due to the complexity of multimodal content and the lack of fine-grained annotations in existing datasets. We present HateClipSeg, a large-scale multimodal dataset with both video-level and segment-level annotations, comprising over 11,714 segments labeled as Normal or across five Offensive categories: Hateful, Insulting, Sexual, Violence, Self-Harm, along with explicit target victim labels. Our three-stage annotation process yields high inter-annotator agreement (Krippendorff's alpha = 0.817). We propose three tasks to benchmark performance: (1) Trimmed Hateful Video Classification, (2) Temporal Hateful Video Localization, and (3) Online Hateful Video Classification. Results highlight substantial gaps in current models, emphasizing the need for more sophisticated multimodal and temporally aware approaches. The HateClipSeg dataset are publicly available at https://github.com/Social-AI-Studio/HateClipSeg.git.
- Abstract(参考訳): ビデオにおけるヘイトスピーチの検出は、マルチモーダルコンテンツの複雑さと既存のデータセットに詳細なアノテーションがないため、依然として難しい。
HateClipSegはビデオレベルとセグメントレベルのアノテーションを備えた大規模マルチモーダルデータセットで、通常または5つのOffensiveカテゴリ(Hateful、Insulting、Sexual、Violence、Self-Harm)の11,714以上のセグメントから構成される。
私たちの3段階のアノテーションプロセスは、高いアノテータ間合意をもたらす(クリッペンドルフのα = 0.817)。
本稿では,(1)トリミングされたHateful Video Classification,(2)一時的Hateful Video Localization,(3)オンラインHateful Video Classificationの3つのタスクを提案する。
結果は、現在のモデルにおけるかなりのギャップを強調し、より洗練されたマルチモーダルおよび時間的に認識されたアプローチの必要性を強調している。
HateClipSegデータセットはhttps://github.com/Social-AI-Studio/HateClipSeg.gitで公開されている。
関連論文リスト
- Revealing Temporal Label Noise in Multimodal Hateful Video Classification [17.69786804367003]
ラベルのあいまいさがきめ細かなアプローチによる影響について検討する。
我々は、アノテーション付きタイムスタンプを使用して、HateMMとMultiHateClipの英語データセットから憎しみのあるビデオをトリムする。
次に、これらのトリミングされたセグメントの探索分析を行い、ヘイトフルコンテンツと非ヘイトフルコンテンツの両方の分布と特性について検討する。
論文 参考訳(メタデータ) (2025-08-06T21:55:59Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - Simple Visual Artifact Detection in Sora-Generated Videos [9.991747596111011]
本研究では,Sora生成ビデオで頻繁に発見・報告される視覚的アーティファクトについて検討する。
4種類の共通アーティファクトラベルを対象とするマルチラベル分類フレームワークを提案する。
ResNet-50で訓練された最高の性能モデルは、平均的なマルチラベル分類精度94.14%を達成した。
論文 参考訳(メタデータ) (2025-04-30T05:41:43Z) - Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions [3.9633773442108873]
本稿では,フレームレベルの字幕から得られる包括的情報を戦略的に活用するナレーション・ザ・ビデオ(NarVid)を提案する。
提案したNarVidは,ナレーションを複数の方法で活用する。1)ナレーションとビデオ間の相互モーダルな相互作用による機能強化,2)無関係あるいは不正な情報を抑制するためのクエリ対応適応フィルタリング,3)クエリ-動画類似度とクエリ-ナレーション類似度を付加したデュアルモーダルマッチングスコア。
論文 参考訳(メタデータ) (2025-03-07T07:15:06Z) - Cross-Modal Transfer from Memes to Videos: Addressing Data Scarcity in Hateful Video Detection [8.05088621131726]
ビデオベースのヘイトスピーチ検出は、注釈付きデータセットの欠如とビデオアノテーションのコストの高さによって、未発見のままである。
我々は、ヘイトフルなビデオ検出モデルをトレーニングするための代替および強化戦略として、ミームデータセットを活用する。
我々の結果は、常に最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2025-01-26T07:50:14Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。