論文の概要: Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model
- arxiv url: http://arxiv.org/abs/2406.07841v1
- Date: Wed, 12 Jun 2024 03:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:34:46.520643
- Title: Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model
- Title(参考訳): マルチモーダル階層型クロスアテンションモデルを用いたオンラインビデオにおけるコミック・ミスチーフのラベル付け
- Authors: Elaheh Baharlouei, Mahsa Shafaei, Yigeng Zhang, Hugo Jair Escalante, Thamar Solorio,
- Abstract要約: そこで本研究では,コミック誤字検出のための新しいエンドツーエンドマルチモーダルシステムを提案する。
本稿では,ビデオ,テキスト(字幕と字幕),音声の3つのモードからなる目標タスクのための新しいデータセットをリリースする。
その結果,提案手法はロバストなベースラインよりも大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 10.666877191424792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of detecting questionable content in online media, specifically the subcategory of comic mischief. This type of content combines elements such as violence, adult content, or sarcasm with humor, making it difficult to detect. Employing a multimodal approach is vital to capture the subtle details inherent in comic mischief content. To tackle this problem, we propose a novel end-to-end multimodal system for the task of comic mischief detection. As part of this contribution, we release a novel dataset for the targeted task consisting of three modalities: video, text (video captions and subtitles), and audio. We also design a HIerarchical Cross-attention model with CAPtions (HICCAP) to capture the intricate relationships among these modalities. The results show that the proposed approach makes a significant improvement over robust baselines and state-of-the-art models for comic mischief detection and its type classification. This emphasizes the potential of our system to empower users, to make informed decisions about the online content they choose to see. In addition, we conduct experiments on the UCF101, HMDB51, and XD-Violence datasets, comparing our model against other state-of-the-art approaches showcasing the outstanding performance of our proposed model in various scenarios.
- Abstract(参考訳): オンラインメディアにおける疑わしいコンテンツの検出という課題,特に漫画の過ちのサブカテゴリに対処する。
このタイプのコンテンツは、暴力、大人のコンテンツ、または皮肉などの要素とユーモアを組み合わせることで、検出が困難になる。
マルチモーダルなアプローチを採用することは、コミックの悪戯の内容に固有の微妙な詳細を捉えるのに不可欠である。
この問題に対処するために,コミック誤字検出のための新しいエンドツーエンドマルチモーダルシステムを提案する。
このコントリビューションの一環として、ビデオ、テキスト(字幕と字幕)、オーディオの3つのモードからなるターゲットタスクのための新しいデータセットをリリースする。
また,HICCAP(Herarchical Cross-attention model with CAPtions)を設計し,これらのモダリティ間の複雑な関係を捉える。
その結果,提案手法は,マンガの誤り検出とタイプ分類のためのロバストなベースラインと最先端のモデルよりも大幅に改善されていることがわかった。
このことは、ユーザーが目にするオンラインコンテンツについて情報的決定を下すために、ユーザーを力づけるシステムの可能性を強調している。
さらに,UCF101,HMDB51,XD-Violenceのデータセット上で実験を行い,提案手法の諸シナリオにおける優れた性能を示す他の最先端手法との比較を行った。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - A Holistic Approach to Undesired Content Detection in the Real World [4.626056557184189]
実世界のコンテンツモデレーションのための堅牢な自然言語分類システムを構築するための総合的なアプローチを提案する。
このようなシステムの成功は、コンテンツの設計やラベリング命令を含む、慎重に設計され実行された一連のステップに依存している。
我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。
論文 参考訳(メタデータ) (2022-08-05T16:47:23Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。