Fugu-MT 論文翻訳(概要): Video Timeline Modeling For News Story Understanding

論文の概要: Video Timeline Modeling For News Story Understanding

arxiv url: http://arxiv.org/abs/2309.13446v2
Date: Fri, 27 Oct 2023 18:38:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 19:57:57.050444
Title: Video Timeline Modeling For News Story Understanding
Title（参考訳）: ニュースストーリー理解のためのビデオタイムラインモデリング
Authors: Meng Liu, Mingda Zhang, Jialu Liu, Hanjun Dai, Ming-Hsuan Yang, Shuiwang Ji, Zheyun Feng, Boqing Gong
Abstract要約: 我々は,ビデオタイムラインモデリングという新たな問題を提示した。我々の目的は、特定の話題に関連する一連のビデオからビデオ関連タイムラインを作成し、話されているストーリーの内容や構造を理解しやすくすることである。この問題は、例えばニュースストーリーの要約など、様々な現実世界のアプリケーションにおいて大きな可能性を秘めている。
参考スコア（独自算出の注目度）: 123.03394373132353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a novel problem, namely video timeline modeling. Our objective is to create a video-associated timeline from a set of videos related to a specific topic, thereby facilitating the content and structure understanding of the story being told. This problem has significant potential in various real-world applications, for instance, news story summarization. To bootstrap research in this area, we curate a realistic benchmark dataset, YouTube-News-Timeline, consisting of over $12$k timelines and $300$k YouTube news videos. Additionally, we propose a set of quantitative metrics to comprehensively evaluate and compare methodologies. With such a testbed, we further develop and benchmark several deep learning approaches to tackling this problem. We anticipate that this exploratory work will pave the way for further research in video timeline modeling. The assets are available via https://github.com/google-research/google-research/tree/master/video_timeline_modeling.
Abstract（参考訳）: 本稿では,ビデオタイムラインモデリングという新たな問題を提案する。我々の目的は、特定の話題に関連する一連のビデオからビデオ関連タイムラインを作成し、話されているストーリーの内容や構造を理解しやすくすることである。この問題は、例えばニュースストーリーの要約など、様々な現実世界のアプリケーションにおいて大きな可能性を秘めている。この分野での研究をブートストラップするために、12ドル以上のタイムラインと300ドル以上のYouTubeニュースビデオからなる、現実的なベンチマークデータセットであるYouTube-News-Timelineをキュレートした。さらに,方法論を包括的に評価し,比較するための定量的指標のセットを提案する。このようなテストベッドによって、この問題に対処する深層学習アプローチをさらに発展させ、ベンチマークする。我々は、この探索的な研究が、ビデオタイムラインモデリングにおけるさらなる研究の道を開くことを期待する。資産はhttps://github.com/google-research/google-research/tree/master/video_timeline_modelingで入手できる。

関連論文リスト

Manipulating a Tetris-Inspired 3D Video Representation [0.0]
ビデオアルゴリズムは、ビデオ内の活動を保存する方法でビデオ圧縮を実行する技術である。異なるアプリケーションに適した異なるオブジェクト時間データ表現について論じる。本稿では,ビデオ合成の問題を解決するために,パッキングアルゴリズムの適用について検討する。
論文参考訳（メタデータ） (2024-07-11T22:41:14Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ） (2022-04-07T17:59:02Z)
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文参考訳（メタデータ） (2021-07-20T16:42:58Z)
Highlight Timestamp Detection Model for Comedy Videos via Multimodal Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文参考訳（メタデータ） (2021-05-28T08:39:19Z)
What is More Likely to Happen Next? Video-and-Language Future Event Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文参考訳（メタデータ） (2020-10-15T19:56:47Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2020-03-18T18:40:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。