論文の概要: Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection
- arxiv url: http://arxiv.org/abs/2402.09055v3
- Date: Mon, 15 Apr 2024 03:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 20:31:43.380772
- Title: Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection
- Title(参考訳): コントラストプレトレーニングによるコメント支援型ビデオ言語アライメントによる短時間ビデオヒューム検出
- Authors: Yang Liu, Tongfei Shen, Dong Zhang, Qingying Sun, Shoushan Li, Guodong Zhou,
- Abstract要約: CVLA(Commitment-Aided Video-Language Alignment)という,短時間のビデオユーモア検出のための新しいモデルを提案する。
CVLAは様々なモーダルチャネルにまたがる生信号で動作するが、一貫したセマンティック空間内にビデオと言語コンポーネントを整列させることにより、適切なマルチモーダル表現が得られる。
DY11kとUR-FUNNYを含む2つのユーモア検出データセットの実験結果は、CVLAが最先端といくつかの競合するベースラインアプローチを劇的に上回っていることを示している。
- 参考スコア(独自算出の注目度): 29.287017615414314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing importance of multi-modal humor detection within affective computing correlates with the expanding influence of short-form video sharing on social media platforms. In this paper, we propose a novel two-branch hierarchical model for short-form video humor detection (SVHD), named Comment-aided Video-Language Alignment (CVLA) via data-augmented multi-modal contrastive pre-training. Notably, our CVLA not only operates on raw signals across various modal channels but also yields an appropriate multi-modal representation by aligning the video and language components within a consistent semantic space. The experimental results on two humor detection datasets, including DY11k and UR-FUNNY, demonstrate that CVLA dramatically outperforms state-of-the-art and several competitive baseline approaches. Our dataset, code and model release at https://github.com/yliu-cs/CVLA.
- Abstract(参考訳): 感情コンピューティングにおけるマルチモーダルなユーモア検出の重要性の高まりは、ソーシャルメディアプラットフォームにおけるショートフォームビデオ共有の影響の増大と相関している。
本稿では,データ拡張型マルチモーダルコントラスト事前学習により,SVHD(Commitment-aided Video-Language Alignment, CVLA)という2分岐階層モデルを提案する。
特に、CVLAは、様々なモーダルチャネルをまたいだ生信号を操作するだけでなく、一貫したセマンティック空間内にビデオと言語コンポーネントを整列させることにより、適切なマルチモーダル表現を生成する。
DY11kとUR-FUNNYを含む2つのユーモア検出データセットの実験結果は、CVLAが最先端といくつかの競合するベースラインアプローチを劇的に上回っていることを示している。
データセット、コード、モデルリリースは、https://github.com/yliu-cs/CVLA。
関連論文リスト
- Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。