論文の概要: MMoE: Robust Spoiler Detection with Multi-modal Information and Domain-aware Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2403.05265v2
- Date: Thu, 14 Mar 2024 03:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:11:34.056103
- Title: MMoE: Robust Spoiler Detection with Multi-modal Information and Domain-aware Mixture-of-Experts
- Title(参考訳): MMoE:マルチモーダル情報とドメイン認識混合によるロバストスポイラー検出
- Authors: Zinan Zeng, Sen Ye, Zijian Cai, Heng Wang, Yuhan Liu, Haokai Zhang, Minnan Luo,
- Abstract要約: MMoEはマルチモーダルネットワークであり、複数のモーダルからの情報を利用してロバストなスポイラー検出を容易にする。
MMoEは2つの広く使用されているスポイラー検出データセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 24.019670360653002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online movie review websites are valuable for information and discussion about movies. However, the massive spoiler reviews detract from the movie-watching experience, making spoiler detection an important task. Previous methods simply focus on reviews' text content, ignoring the heterogeneity of information in the platform. For instance, the metadata and the corresponding user's information of a review could be helpful. Besides, the spoiler language of movie reviews tends to be genre-specific, thus posing a domain generalization challenge for existing methods. To this end, we propose MMoE, a multi-modal network that utilizes information from multiple modalities to facilitate robust spoiler detection and adopts Mixture-of-Experts to enhance domain generalization. MMoE first extracts graph, text, and meta feature from the user-movie network, the review's textual content, and the review's metadata respectively. To handle genre-specific spoilers, we then adopt Mixture-of-Experts architecture to process information in three modalities to promote robustness. Finally, we use an expert fusion layer to integrate the features from different perspectives and make predictions based on the fused embedding. Experiments demonstrate that MMoE achieves state-of-the-art performance on two widely-used spoiler detection datasets, surpassing previous SOTA methods by 2.56% and 8.41% in terms of accuracy and F1-score. Further experiments also demonstrate MMoE's superiority in robustness and generalization.
- Abstract(参考訳): オンライン映画レビューサイトは、映画に関する情報や議論に有用である。
しかし、大規模なスポイラーレビューは映画視聴経験から逸脱し、スポイラー検出が重要な課題となった。
これまでの方法は、プラットフォーム内の情報の異質性を無視して、単にレビューのテキストコンテンツにフォーカスするものだった。
例えば、レビューのメタデータと対応するユーザの情報も役に立ちます。
さらに、映画レビューのスポイラー言語はジャンル特化されがちであり、既存の手法ではドメインの一般化が課題となっている。
この目的のために、マルチモーダルネットワークであるMMoEを提案する。マルチモーダルネットワークは、複数のモーダルからの情報を利用してロバストなスポイラー検出を容易にし、Mixture-of-Expertsを用いてドメインの一般化を強化する。
MMoEはまず、ユーザ移動ネットワークからグラフ、テキスト、メタ機能、レビューのテキストコンテンツ、レビューのメタデータを抽出する。
ジャンル別スポイラーの処理にはMixture-of-Expertsアーキテクチャを用い、3つのモードで情報処理を行い、堅牢性を向上する。
最後に、専門家の融合層を使用して、異なる視点から機能を統合し、融合した埋め込みに基づいて予測を行う。
実験により、MMoEは2つの広く使用されているスポイラー検出データセットに対して、精度とF1スコアの点で、従来のSOTA手法を2.56%、8.41%上回る、最先端のパフォーマンスを達成した。
さらなる実験では、MMoEの強靭性と一般化の優位性も示されている。
関連論文リスト
- Mitigating Clickbait: An Approach to Spoiler Generation Using Multitask Learning [6.404122934568859]
本研究では,スポイラーを簡潔なテキスト応答として検出・分類・生成する新技術である「クリックベイトスポイリング」を紹介する。
マルチタスク学習フレームワークを活用することで,モデルの一般化能力は大幅に向上する。
本研究は,クリックベイト問題に対処するための高度なテキスト処理技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-05-07T13:09:25Z) - A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文 参考訳(メタデータ) (2024-03-06T16:10:01Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Detecting Spoilers in Movie Reviews with External Movie Knowledge and
User Networks [49.34060089217864]
オンライン映画レビュープラットフォームは、映画産業と一般大衆にクラウドソースによるフィードバックを提供している。
自動でスポイラーを識別するための予備的な研究が実施されたが、それらは単にレビューの内容そのものに焦点を当てているだけであった。
本稿では,映画レビュープラットフォーム上での映画やユーザ活動の外部知識を考慮した,新しい多視点スポイラー検出フレームワークであるMVSDを提案する。
論文 参考訳(メタデータ) (2023-04-22T13:54:31Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Spoiler in a Textstack: How Much Can Transformers Help? [0.0]
本稿では、最新のディープラーニングの成果と手法を用いて、利用可能なテキストベースモデルタスクを微調整し、整理し、モデルの結果を解釈する方法について述べる。
そこで我々は,モデルの信頼性を評価し,その結果を説明するために,解釈可能性技術と尺度を用いた。
論文 参考訳(メタデータ) (2021-12-24T02:42:44Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。