論文の概要: Multi-modal News Understanding with Professionally Labelled Videos
(ReutersViLNews)
- arxiv url: http://arxiv.org/abs/2401.12419v1
- Date: Tue, 23 Jan 2024 00:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 17:18:31.286189
- Title: Multi-modal News Understanding with Professionally Labelled Videos
(ReutersViLNews)
- Title(参考訳): 専門的ラベル付きビデオによるマルチモーダルニュース理解(reutersvilnews)
- Authors: Shih-Han Chou, Matthew Kowal, Yasmin Niknam, Diana Moyano, Shayaan
Mehdi, Richard Pito, Cheng Zhang, Ian Knopke, Sedef Akinli Kocak, Leonid
Sigal, Yalda Mohsenzadeh
- Abstract要約: 我々はReuters ViLNewsデータセットと呼ばれるReuters News Agencyが収集した社内データセットを大規模に分析した。
このデータセットは、長文ニュースに重点を置いて、ハイレベルなビデオ言語理解に焦点を当てている。
その結果,ニュース指向ビデオは現在のビデオ言語理解アルゴリズムにとって大きな課題であることが示唆された。
- 参考スコア(独自算出の注目度): 25.78619140103048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While progress has been made in the domain of video-language understanding,
current state-of-the-art algorithms are still limited in their ability to
understand videos at high levels of abstraction, such as news-oriented videos.
Alternatively, humans easily amalgamate information from video and language to
infer information beyond what is visually observable in the pixels. An example
of this is watching a news story, where the context of the event can play as
big of a role in understanding the story as the event itself. Towards a
solution for designing this ability in algorithms, we present a large-scale
analysis on an in-house dataset collected by the Reuters News Agency, called
Reuters Video-Language News (ReutersViLNews) dataset which focuses on
high-level video-language understanding with an emphasis on long-form news. The
ReutersViLNews Dataset consists of long-form news videos collected and labeled
by news industry professionals over several years and contains prominent news
reporting from around the world. Each video involves a single story and
contains action shots of the actual event, interviews with people associated
with the event, footage from nearby areas, and more. ReutersViLNews dataset
contains videos from seven subject categories: disaster, finance,
entertainment, health, politics, sports, and miscellaneous with annotations
from high-level to low-level, title caption, visual video description,
high-level story description, keywords, and location. We first present an
analysis of the dataset statistics of ReutersViLNews compared to previous
datasets. Then we benchmark state-of-the-art approaches for four different
video-language tasks. The results suggest that news-oriented videos are a
substantial challenge for current video-language understanding algorithms and
we conclude by providing future directions in designing approaches to solve the
ReutersViLNews dataset.
- Abstract(参考訳): ビデオ言語理解の分野では進歩が進んでいるが、現在の最先端のアルゴリズムは、ニュース指向ビデオのような高レベルの抽象化でビデオを理解する能力に制限がある。
あるいは、人間はビデオや言語から情報を得るのが簡単で、ピクセルで視覚的に観測できるもの以上の情報を推測する。
この例では、イベントのコンテキストが、ストーリをイベント自体として理解する上で、大きな役割を果たすことができる、ニュースストーリーを見ている。
reuters video-language news (reutersvilnews)データセットと呼ばれるreuters news agencyが収集した社内のデータセットを大規模に分析し,長文ニュースを重視した高レベルビデオ言語理解に重点を置いた。
ReutersViLNews Datasetは、ニュース業界の専門家によって数年間にわたって収集され、ラベル付けされた長いニュースビデオで構成され、世界中の著名なニュースが報道されている。
それぞれのビデオには、1つのストーリーが含まれ、実際のイベントのアクションショット、イベントに関連する人々へのインタビュー、近隣地域の映像などが含まれている。
ReutersViLNewsのデータセットには、災害、金融、エンターテイメント、健康、政治、スポーツ、雑多な7つのカテゴリのビデオが含まれており、ハイレベルからローレベル、タイトルキャプション、ビジュアルビデオの説明、ハイレベルなストーリー説明、キーワード、ロケーションのアノテーションがある。
まず、ReutersViLNewsのデータセット統計を以前のデータセットと比較して分析する。
そして、4つの異なるビデオ言語タスクに対する最先端のアプローチをベンチマークする。
その結果,現在のビデオ言語理解アルゴリズムではニュース指向ビデオが大きな課題であることが示唆され,ReutersViLNewsデータセットの解法設計における今後の方向性が示唆された。
関連論文リスト
- A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。