論文の概要: HLVU : A New Challenge to Test Deep Understanding of Movies the Way
Humans do
- arxiv url: http://arxiv.org/abs/2005.00463v1
- Date: Fri, 1 May 2020 15:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:35:06.057851
- Title: HLVU : A New Challenge to Test Deep Understanding of Movies the Way
Humans do
- Title(参考訳): hlvu : 映画を人間のように深く理解するための新たな挑戦
- Authors: Keith Curtis, George Awad, Shahzad Rajput, and Ian Soboroff
- Abstract要約: 本稿では,ハイレベル映像理解分野における新たな評価課題と方向性を提案する。
私たちが提案している課題は、自動ビデオ分析と理解のテストと、アクター、エンティティ、イベント、そしてそれらの関係について、いかに正確に映画を理解できるかをテストすることである。
オープンソースの映画のハイレベルビデオ理解データセットを試験的に収集し、人間の評価者がそれぞれを表現する知識グラフを構築した。
クエリのセットは、知識グラフから派生し、アクター間の関係を検索するシステムをテストするとともに、非視覚的概念の推論と検索を行う。
- 参考スコア(独自算出の注目度): 3.423039905282442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose a new evaluation challenge and direction in the area
of High-level Video Understanding. The challenge we are proposing is designed
to test automatic video analysis and understanding, and how accurately systems
can comprehend a movie in terms of actors, entities, events and their
relationship to each other. A pilot High-Level Video Understanding (HLVU)
dataset of open source movies were collected for human assessors to build a
knowledge graph representing each of them. A set of queries will be derived
from the knowledge graph to test systems on retrieving relationships among
actors, as well as reasoning and retrieving non-visual concepts. The objective
is to benchmark if a computer system can "understand" non-explicit but obvious
relationships the same way humans do when they watch the same movies. This is
long-standing problem that is being addressed in the text domain and this
project moves similar research to the video domain. Work of this nature is
foundational to future video analytics and video understanding technologies.
This work can be of interest to streaming services and broadcasters hoping to
provide more intuitive ways for their customers to interact with and consume
video content.
- Abstract(参考訳): 本稿では,高レベル映像理解分野における新たな評価課題と方向性を提案する。
私たちが提案している課題は、自動ビデオ分析と理解のテストと、アクター、エンティティ、イベント、そしてそれらの関係について、いかに正確に映画を理解できるかをテストすることである。
オープンソース映画のパイロットハイレベルビデオ理解(HLVU)データセットが収集され、人間の評価者がそれぞれを表す知識グラフを構築した。
クエリのセットは、知識グラフから派生し、アクター間の関係を検索するシステムをテストするとともに、非視覚的概念の推論と検索を行う。
目的は、人間が同じ映画を観ているときと同じように、コンピュータシステムが「不可解だが明白な関係を理解」できるかどうかをベンチマークすることである。
これはテキストドメインで解決されている長年の問題であり、このプロジェクトは同様の研究をビデオドメインに移している。
この性質の働きは、将来のビデオ分析とビデオ理解技術の基礎となる。
この仕事は、顧客がビデオコンテンツと対話したり、消費したりするための、より直感的な方法を提供するストリーミングサービスやブロードキャスターにとって興味深い。
関連論文リスト
- A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - VideoChat: Chat-Centric Video Understanding [80.63932941216129]
我々は、ビデオチャットと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発した。
学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。
予備的な定性的実験は、幅広いビデオアプリケーションにまたがる我々のシステムの可能性を実証している。
論文 参考訳(メタデータ) (2023-05-10T17:59:04Z) - Contextual Explainable Video Representation:\\Human Perception-based
Understanding [10.172332586182792]
人間の知覚過程をアクター、オブジェクト、環境のモデリングに組み込むアプローチについて議論する。
ビデオ理解における人間の知覚に基づく文脈表現の有効性を示すために,ビデオ文のキャプションと時間的行動検出を選択する。
論文 参考訳(メタデータ) (2022-12-12T19:29:07Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - TrUMAn: Trope Understanding in Movies and Animations [19.80173687261055]
本稿では,新しい概念モジュールを備えたTrUStデータセットを提案する。
TrUStは、潜伏した空間でビデオストーリーテリングを行うことで、ビデオエンコーダをガイドする。
実験の結果,既存のタスクにおける最先端学習システムは生の入力信号で12.01%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2021-08-10T09:34:14Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。