論文の概要: FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
- arxiv url: http://arxiv.org/abs/2401.04210v1
- Date: Mon, 8 Jan 2024 19:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:35:51.429245
- Title: FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
- Title(参考訳): FunnyNet-W:野生ビデオにおけるファニーモーメントのマルチモーダル学習
- Authors: Zhi-Song Liu, Robin Courant, Vicky Kalogeiton
- Abstract要約: 本稿では,ビデオ中の面白い瞬間を予測するために,視覚,音声,テキストデータに対して,クロスアテンションと自己アテンションに依存するモデルFunnyNet-Wを提案する。
TBBT, MHD, MUStARD, Friends, TEDトークUR-Funnyの5つのデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 12.530540250653633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically understanding funny moments (i.e., the moments that make people
laugh) when watching comedy is challenging, as they relate to various features,
such as body language, dialogues and culture. In this paper, we propose
FunnyNet-W, a model that relies on cross- and self-attention for visual, audio
and text data to predict funny moments in videos. Unlike most methods that rely
on ground truth data in the form of subtitles, in this work we exploit
modalities that come naturally with videos: (a) video frames as they contain
visual information indispensable for scene understanding, (b) audio as it
contains higher-level cues associated with funny moments, such as intonation,
pitch and pauses and (c) text automatically extracted with a speech-to-text
model as it can provide rich information when processed by a Large Language
Model. To acquire labels for training, we propose an unsupervised approach that
spots and labels funny audio moments. We provide experiments on five datasets:
the sitcoms TBBT, MHD, MUStARD, Friends, and the TED talk UR-Funny. Extensive
experiments and analysis show that FunnyNet-W successfully exploits visual,
auditory and textual cues to identify funny moments, while our findings reveal
FunnyNet-W's ability to predict funny moments in the wild. FunnyNet-W sets the
new state of the art for funny moment detection with multimodal cues on all
datasets with and without using ground truth information.
- Abstract(参考訳): 滑稽な瞬間(つまり、人を笑わせる瞬間)を自動的に理解することは、ボディランゲージや対話、文化といった様々な特徴に関連付けるため、困難である。
本稿では,ビデオ中の面白い瞬間を予測するために,視覚,音声,テキストデータに対して,クロスアテンションと自己アテンションに依存するモデルであるFunnyNet-Wを提案する。
サブタイトルの形で根拠真理データに依存するほとんどの方法とは異なり、本作品では、ビデオに自然に現れるモダリティを活用します。
(a)シーン理解に欠かせない視覚情報を含む映像フレーム
(b)イントネーション、ピッチ、一時停止などのおかしな瞬間に関連するハイレベルな手がかりを含むオーディオ
(c) 大規模言語モデルで処理した場合にリッチな情報を提供できるため,音声からテキストまでの自動抽出を行う。
トレーニング用ラベルを取得するために,面白い音声モーメントの発見とラベル付けを行う教師なしアプローチを提案する。
TBBT, MHD, MUStARD, Friends, TEDトークUR-Funnyの5つのデータセットについて実験を行った。
大規模な実験と分析の結果、FunnyNet-Wは視覚的、聴覚的、テキスト的な手がかりを利用して面白い瞬間を識別することに成功した。
FunnyNet-Wは、基底真理情報を使用しなくても、すべてのデータセット上のマルチモーダルキューによる面白いモーメント検出のための新しい状態を設定する。
関連論文リスト
- SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models [32.60274453610208]
我々は、ビデオにおける笑いの背景にある理性を理解するための新しい挑戦に取り組む。
提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。
論文 参考訳(メタデータ) (2023-12-15T14:17:45Z) - Can Language Models Laugh at YouTube Short-form Videos? [40.47384055149102]
ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。
GPT-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語的要素と視覚的要素の両方を検証する。
フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートします。
論文 参考訳(メタデータ) (2023-10-22T03:01:38Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos [72.69052180249598]
ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。
3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。
本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
論文 参考訳(メタデータ) (2022-03-28T02:47:01Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - DeHumor: Visual Analytics for Decomposing Humor [36.300283476950796]
公言におけるユーモラスな行動を分析する視覚システムであるDeHumorを開発した。
それぞれの具体例の構成要素を直感的に明らかにするために、DeHumorはユーモラスな動画をマルチモーダルな特徴に分解する。
DeHumorはユーモアのユーモアの例として、さまざまなビルディングブロックをハイライトすることができる。
論文 参考訳(メタデータ) (2021-07-18T04:01:07Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。