論文の概要: Can Language Models Laugh at YouTube Short-form Videos?
- arxiv url: http://arxiv.org/abs/2310.14159v3
- Date: Sun, 31 Mar 2024 10:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 15:25:00.678347
- Title: Can Language Models Laugh at YouTube Short-form Videos?
- Title(参考訳): YouTubeのショートフォームビデオは、言語モデルに悪影響か?
- Authors: Dayoon Ko, Sangho Lee, Gunhee Kim,
- Abstract要約: ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。
GPT-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語的要素と視覚的要素の両方を検証する。
フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートします。
- 参考スコア(独自算出の注目度): 40.47384055149102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As short-form funny videos on social networks are gaining popularity, it becomes demanding for AI models to understand them for better communication with humans. Unfortunately, previous video humor datasets target specific domains, such as speeches or sitcoms, and mostly focus on verbal cues. We curate a user-generated dataset of 10K multimodal funny videos from YouTube, called ExFunTube. Using a video filtering pipeline with GPT-3.5, we verify both verbal and visual elements contributing to humor. After filtering, we annotate each video with timestamps and text explanations for funny moments. Our ExFunTube is unique over existing datasets in that our videos cover a wide range of domains with various types of humor that necessitate a multimodal understanding of the content. Also, we develop a zero-shot video-to-text prompting to maximize video humor understanding of large language models (LLMs). With three different evaluation methods using automatic scores, rationale quality experiments, and human evaluations, we show that our prompting significantly improves LLMs' ability for humor explanation.
- Abstract(参考訳): ソーシャルネットワーク上の短いビデオが人気を集めている中、人間とのコミュニケーションを改善するためにAIモデルに理解を求める声が高まっている。
残念ながら、以前のビデオユーモアデータセットは、スピーチやシットコムのような特定のドメインをターゲットにしており、主に動詞の手がかりに焦点を当てている。
ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。
GPT-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語的要素と視覚的要素の両方を検証する。
フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートします。
われわれのExFunTubeは、既存のデータセットとは違って、ビデオはさまざまな種類のユーモアを持つ幅広い領域をカバーし、コンテンツに対するマルチモーダルな理解を必要としている。
また,大規模言語モデル (LLM) の映像ユーモア理解を最大化するために,ゼロショットビデオ・トゥ・テキスト・プロンプトを開発した。
自動スコア,合理化実験,人的評価の3つの異なる評価手法を用いて,本手法はユーモアの説明能力を大幅に向上させることを示す。
関連論文リスト
- FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild [12.530540250653633]
本稿では,ビデオ中の面白い瞬間を予測するために,視覚,音声,テキストデータに対して,クロスアテンションと自己アテンションに依存するモデルFunnyNet-Wを提案する。
TBBT, MHD, MUStARD, Friends, TEDトークUR-Funnyの5つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2024-01-08T19:39:36Z) - SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models [32.60274453610208]
我々は、ビデオにおける笑いの背景にある理性を理解するための新しい挑戦に取り組む。
提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。
論文 参考訳(メタデータ) (2023-12-15T14:17:45Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Knowledge Enhanced Model for Live Video Comment Generation [40.762720398152766]
本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。
本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。
MovieLCデータセットとコードがリリースされる。
論文 参考訳(メタデータ) (2023-04-28T07:03:50Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos [72.69052180249598]
ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。
3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。
本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
論文 参考訳(メタデータ) (2022-03-28T02:47:01Z) - DeHumor: Visual Analytics for Decomposing Humor [36.300283476950796]
公言におけるユーモラスな行動を分析する視覚システムであるDeHumorを開発した。
それぞれの具体例の構成要素を直感的に明らかにするために、DeHumorはユーモラスな動画をマルチモーダルな特徴に分解する。
DeHumorはユーモアのユーモアの例として、さまざまなビルディングブロックをハイライトすることができる。
論文 参考訳(メタデータ) (2021-07-18T04:01:07Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。