論文の概要: TrUMAn: Trope Understanding in Movies and Animations
- arxiv url: http://arxiv.org/abs/2108.04542v1
- Date: Tue, 10 Aug 2021 09:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:33:41.966521
- Title: TrUMAn: Trope Understanding in Movies and Animations
- Title(参考訳): TrUMAn:映画とアニメのトロープ理解
- Authors: Hung-Ting Su, Po-Wei Shen, Bing-Chen Tsai, Wen-Feng Cheng, Ke-Jyun
Wang, Winston H. Hsu
- Abstract要約: 本稿では,新しい概念モジュールを備えたTrUStデータセットを提案する。
TrUStは、潜伏した空間でビデオストーリーテリングを行うことで、ビデオエンコーダをガイドする。
実験の結果,既存のタスクにおける最先端学習システムは生の入力信号で12.01%の精度しか達成できないことがわかった。
- 参考スコア(独自算出の注目度): 19.80173687261055
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding and comprehending video content is crucial for many real-world
applications such as search and recommendation systems. While recent progress
of deep learning has boosted performance on various tasks using visual cues,
deep cognition to reason intentions, motivation, or causality remains
challenging. Existing datasets that aim to examine video reasoning capability
focus on visual signals such as actions, objects, relations, or could be
answered utilizing text bias. Observing this, we propose a novel task, along
with a new dataset: Trope Understanding in Movies and Animations (TrUMAn),
intending to evaluate and develop learning systems beyond visual signals.
Tropes are frequently used storytelling devices for creative works. By coping
with the trope understanding task and enabling the deep cognition skills of
machines, we are optimistic that data mining applications and algorithms could
be taken to the next level. To tackle the challenging TrUMAn dataset, we
present a Trope Understanding and Storytelling (TrUSt) with a new Conceptual
Storyteller module, which guides the video encoder by performing video
storytelling on a latent space. The generated story embedding is then fed into
the trope understanding model to provide further signals. Experimental results
demonstrate that state-of-the-art learning systems on existing tasks reach only
12.01% of accuracy with raw input signals. Also, even in the oracle case with
human-annotated descriptions, BERT contextual embedding achieves at most 28% of
accuracy. Our proposed TrUSt boosts the model performance and reaches 13.94%
performance. We also provide detailed analysis topave the way for future
research. TrUMAn is publicly available
at:https://www.cmlab.csie.ntu.edu.tw/project/trope
- Abstract(参考訳): ビデオコンテンツの理解と理解は,検索やレコメンデーションシステムなど,多くの現実世界のアプリケーションにとって不可欠である。
近年のディープラーニングの進歩は、視覚的手がかりを用いた様々なタスクのパフォーマンスを高める一方で、意図、動機、因果関係を推論するための深い認知は依然として困難である。
既存のデータセットは、アクション、オブジェクト、関係などの視覚的な信号に焦点を当て、テキストバイアスを利用して答えることができる。
そこで本研究では,映像とアニメーションのトロープ理解(TrUMAn)とともに,視覚信号以外の学習システムの評価・開発を目的とした新しい課題を提案する。
トロピーは創造的な作品のためにしばしば使用されるストーリーテリングデバイスである。
トロープ理解タスクに対処し、マシンの深い認識能力を実現することで、データマイニングアプリケーションとアルゴリズムを次のレベルに導くことができると楽観的に思っています。
そこで,本研究では,ビデオエンコーダを潜在空間上でビデオストーリーテリングすることにより,映像エンコーダをガイドする新たな概念ストーリーテラーモジュールを,トロペ理解とストーリーテリング (trust) に導入する。
生成されたストーリー埋め込みは、さらなるシグナルを提供するためにトロペ理解モデルに送られます。
実験の結果,既存のタスクにおける最先端学習システムは生の入力信号で12.01%の精度しか達成できないことがわかった。
また、人間に注釈された記述を持つoracleの場合でさえ、bert context embeddedは、精度の最大28%を達成する。
提案したTrUStは,モデル性能を13.94%向上させる。
また、今後の研究の道程を詳細に分析する。
TrUMAnは、https://www.cmlab.csie.ntu.edu.tw/project/tropeで公開されている。
関連論文リスト
- Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Situation and Behavior Understanding by Trope Detection on Films [26.40954537814751]
機械の状況と行動の理解を作成するために、新しいタスク、フィルム上のトロピー検出を提示します。
我々は、新しいデータセットであるTropes in Movie Synopses (TiMoS)を導入し、5623の映画シンプと95の異なるトロープをウィキペディアスタイルのデータベースであるTVTropesから収集した。
単語,文,役割関係の多段階的注目を活用したマルチストリーム理解ネットワーク(MulCom)を提案する。
論文 参考訳(メタデータ) (2021-01-19T14:09:54Z) - Co-attentional Transformers for Story-Based Video Understanding [24.211255523490692]
本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-27T07:17:09Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - HLVU : A New Challenge to Test Deep Understanding of Movies the Way
Humans do [3.423039905282442]
本稿では,ハイレベル映像理解分野における新たな評価課題と方向性を提案する。
私たちが提案している課題は、自動ビデオ分析と理解のテストと、アクター、エンティティ、イベント、そしてそれらの関係について、いかに正確に映画を理解できるかをテストすることである。
オープンソースの映画のハイレベルビデオ理解データセットを試験的に収集し、人間の評価者がそれぞれを表現する知識グラフを構築した。
クエリのセットは、知識グラフから派生し、アクター間の関係を検索するシステムをテストするとともに、非視覚的概念の推論と検索を行う。
論文 参考訳(メタデータ) (2020-05-01T15:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。