論文の概要: Taking an Emotional Look at Video Paragraph Captioning
- arxiv url: http://arxiv.org/abs/2203.06356v1
- Date: Sat, 12 Mar 2022 06:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:16:52.371035
- Title: Taking an Emotional Look at Video Paragraph Captioning
- Title(参考訳): 動画パラグラフのキャプションを感情的に見る
- Authors: Qinyu Li, Tengpeng Li, Hanli Wang, Chang Wen Chen
- Abstract要約: 本研究は,映像の段落レベルの記述を生成することを目標として,ビデオ段落のキャプションで実施する。
そこで本研究では,この課題に対して,大規模感情と論理駆動型多言語データセットを構築することを提案する。
このデータセットはEMVPCと名付けられ、毎日53件の広く使われている感情、これらの感情に対応する376件の一般的なシーン、10,291件の高品質ビデオ、20,582件の詳細な文節と英語と中国語のバージョンが含まれている。
- 参考スコア(独自算出の注目度): 38.98567869515748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating visual data into natural language is essential for machines to
understand the world and interact with humans. In this work, a comprehensive
study is conducted on video paragraph captioning, with the goal to generate
paragraph-level descriptions for a given video. However, current researches
mainly focus on detecting objective facts, ignoring the needs to establish the
logical associations between sentences and to discover more accurate emotions
related to video contents. Such a problem impairs fluent and abundant
expressions of predicted captions, which are far below human language tandards.
To solve this problem, we propose to construct a large-scale emotion and logic
driven multilingual dataset for this task. This dataset is named EMVPC
(standing for "Emotional Video Paragraph Captioning") and contains 53
widely-used emotions in daily life, 376 common scenes corresponding to these
emotions, 10,291 high-quality videos and 20,582 elaborated paragraph captions
with English and Chinese versions. Relevant emotion categories, scene labels,
emotion word labels and logic word labels are also provided in this new
dataset. The proposed EMVPC dataset intends to provide full-fledged video
paragraph captioning in terms of rich emotions, coherent logic and elaborate
expressions, which can also benefit other tasks in vision-language fields.
Furthermore, a comprehensive study is conducted through experiments on existing
benchmark video paragraph captioning datasets and the proposed EMVPC. The
stateof-the-art schemes from different visual captioning tasks are compared in
terms of 15 popular metrics, and their detailed objective as well as subjective
results are summarized. Finally, remaining problems and future directions of
video paragraph captioning are also discussed. The unique perspective of this
work is expected to boost further development in video paragraph captioning
research.
- Abstract(参考訳): 視覚データを自然言語に翻訳することは、機械が世界を理解し、人間と対話するために不可欠である。
本研究は,映像の段落レベルの記述を生成することを目的として,動画の段落を包括的に研究する。
しかし、近年の研究は、主に客観的事実の検出に焦点をあてており、文間の論理的関連性を確立し、ビデオコンテンツに関連するより正確な感情を発見する必要性を無視している。
このような問題は、人間の言葉のタンダードよりはるかに低い、予測されたキャプションの精巧で豊富な表現を妨げている。
そこで本研究では,大規模感情と論理駆動型多言語データセットの構築を提案する。
このデータセットはEMVPC("Emotional Video Paragraph Captioning"の略)と名付けられ、日常生活で広く使われている53の感情、これらの感情に対応する376の一般的なシーン、10,291の高品質ビデオ、20,582の精巧な段落を含む。
関連する感情カテゴリ、シーンラベル、感情語ラベル、論理語ラベルもこの新しいデータセットで提供される。
提案したEMVPCデータセットは、リッチな感情、コヒーレントな論理、精巧な表現という観点から、本格的なビデオパラグラフを提供することを目的としており、視覚言語分野の他のタスクにも役立てることができる。
さらに,既存のベンチマークビデオ文キャプションデータセットと提案するEMVPCの実験を通じて,総合的研究を行った。
異なる視覚的キャプションタスクからの最先端のスキームを15の一般的な指標で比較し、その詳細な目的と主観的な結果について要約する。
最後に,ビデオ字幕の残り問題と今後の方向性についても論じる。
本研究の独特な視点は,ビデオ字幕研究のさらなる発展を促進することが期待されている。
関連論文リスト
- SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities [0.7510165488300369]
本稿では,検索・理解モダリティ(SPECTRUM)フレームワークを用いたセマンティック・プロセッシングと感情インフォームド・ビデオキャプションを提案する。
SPECTRUMは、VTAI(Visual Text Attribute Investigation)を用いてマルチモーダルなセマンティクスと感情的なテーマを特定し、記述的キャプションの向きを決定する。
ビデオ・トゥ・テキスト検索機能とビデオコンテンツの多面的特性を利用して、候補キャプションの感情的確率を推定する。
論文 参考訳(メタデータ) (2024-11-04T10:51:47Z) - Generative Emotion Cause Explanation in Multimodal Conversations [23.39751445330256]
我々は、新しいタスク textbfMultimodal textbfConversation textbfEmotion textbfCause textbfExplanation (MCECE)を提案する。
マルチモーダル会話シナリオにおいて、ターゲット発話に対する感情的原因を詳細に説明することを目的としている。
FAME-Netという新しいアプローチが提案され、ビデオの表情を通して、視覚データを解析し、感情を正確に解釈するLarge Language Models(LLMs)の力を利用する。
論文 参考訳(メタデータ) (2024-11-01T09:16:30Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。