論文の概要: SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models
- arxiv url: http://arxiv.org/abs/2312.09818v2
- Date: Mon, 1 Apr 2024 07:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:33:25.245751
- Title: SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models
- Title(参考訳): SMILE:言語モデルによるビデオ中の娘の理解のためのマルチモーダルデータセット
- Authors: Lee Hyun, Kim Sung-Bin, Seungju Han, Youngjae Yu, Tae-Hyun Oh,
- Abstract要約: 我々は、ビデオにおける笑いの背景にある理性を理解するための新しい挑戦に取り組む。
提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。
- 参考スコア(独自算出の注目度): 32.60274453610208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advances of the artificial intelligence, building social intelligence remains a challenge. Among social signals, laughter is one of the distinctive expressions that occurs during social interactions between humans. In this work, we tackle a new challenge for machines to understand the rationale behind laughter in video, Video Laugh Reasoning. We introduce this new task to explain why people laugh in a particular video and a dataset for this task. Our proposed dataset, SMILE, comprises video clips and language descriptions of why people laugh. We propose a baseline by leveraging the reasoning capacity of large language models (LLMs) with textual video representation. Experiments show that our baseline can generate plausible explanations for laughter. We further investigate the scalability of our baseline by probing other video understanding tasks and in-the-wild videos. We release our dataset, code, and model checkpoints on https://github.com/postech-ami/SMILE-Dataset.
- Abstract(参考訳): 人工知能の最近の進歩にもかかわらず、ソーシャルインテリジェンスの構築は依然として課題だ。
社会的なシグナルの中で、笑いは人間同士の社会的相互作用の間に生じる特徴的な表現の1つである。
本研究では、ビデオにおける笑いの背景にある理論的根拠を理解するために、機械が新しい課題に取り組む。
このタスクを導入し、人々がなぜ特定のビデオやデータセットで笑うのかを説明する。
提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。
本稿では,大規模言語モデル(LLM)の推論能力とテキスト映像表現を併用したベースラインを提案する。
実験により、我々の基準線は笑いのもっともらしい説明を生成できることが示された。
さらに,他のビデオ理解タスクや,その中の動画を探索することで,ベースラインのスケーラビリティについて検討する。
私たちはデータセット、コード、モデルチェックポイントをhttps://github.com/postech-ami/SMILE-Datasetでリリースしています。
関連論文リスト
- Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - LaughTalk: Expressive 3D Talking Head Generation with Laughter [15.60843963655039]
音声と実笑の両方を明瞭に表現できる3次元音声ヘッドを生成するための新しいタスクを提案する。
新たに収集したデータセットは、擬似アノテーションと人間検証された3DFLAMEパラメータをペアにした2D笑いビデオからなる。
本手法は,発話音声の生成と笑い信号の表現において,既存の手法と比較して好意的に機能する。
論文 参考訳(メタデータ) (2023-11-02T05:04:33Z) - Can Language Models Laugh at YouTube Short-form Videos? [40.47384055149102]
ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。
GPT-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語的要素と視覚的要素の両方を検証する。
フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートします。
論文 参考訳(メタデータ) (2023-10-22T03:01:38Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Laughing Matters: Introducing Laughing-Face Generation using Diffusion
Models [35.688696422879175]
そこで本研究では,静止画と笑いを含む音声クリップを用いて,リアルな笑い系列を生成する新しいモデルを提案する。
我々は、さまざまな笑いデータセットに基づいてモデルをトレーニングし、笑いのために特別に設計された評価指標を導入する。
本モデルでは,笑声生成のために再訓練された場合でも,すべての指標に対して最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2023-05-15T17:59:57Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。