論文の概要: Text Synopsis Generation for Egocentric Videos
- arxiv url: http://arxiv.org/abs/2005.03804v2
- Date: Mon, 21 Sep 2020 16:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 13:00:19.641043
- Title: Text Synopsis Generation for Egocentric Videos
- Title(参考訳): エゴセントリックビデオのためのテキスト合成生成
- Authors: Aidean Sharghi, Niels da Vitoria Lobo, Mubarak Shah
- Abstract要約: 我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
- 参考スコア(独自算出の注目度): 72.52130695707008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mass utilization of body-worn cameras has led to a huge corpus of available
egocentric video. Existing video summarization algorithms can accelerate
browsing such videos by selecting (visually) interesting shots from them.
Nonetheless, since the system user still has to watch the summary videos,
browsing large video databases remain a challenge. Hence, in this work, we
propose to generate a textual synopsis, consisting of a few sentences
describing the most important events in a long egocentric videos. Users can
read the short text to gain insight about the video, and more importantly,
efficiently search through the content of a large video database using text
queries. Since egocentric videos are long and contain many activities and
events, using video-to-text algorithms results in thousands of descriptions,
many of which are incorrect. Therefore, we propose a multi-task learning scheme
to simultaneously generate descriptions for video segments and summarize the
resulting descriptions in an end-to-end fashion. We Input a set of video shots
and the network generates a text description for each shot. Next,
visual-language content matching unit that is trained with a weakly supervised
objective, identifies the correct descriptions. Finally, the last component of
our network, called purport network, evaluates the descriptions all together to
select the ones containing crucial information. Out of thousands of
descriptions generated for the video, a few informative sentences are returned
to the user. We validate our framework on the challenging UT Egocentric video
dataset, where each video is between 3 to 5 hours long, associated with over
3000 textual descriptions on average. The generated textual summaries,
including only 5 percent (or less) of the generated descriptions, are compared
to groundtruth summaries in text domain using well-established metrics in
natural language processing.
- Abstract(参考訳): ボディウーンカメラの大量利用は、利用可能なエゴセントリックビデオの巨大なコーパスに繋がった。
既存の動画要約アルゴリズムは、興味ある映像を(視覚的に)選択することで、そのような動画の閲覧を高速化することができる。
それでも、システムユーザーは要約ビデオを見る必要があるため、大きなビデオデータベースを閲覧することは依然として困難である。
そこで本研究では,長いエゴセントリックビデオの中で最も重要な出来事を記述した数文からなるテキスト合成を生成することを提案する。
ユーザは短いテキストを読んで、ビデオに関する洞察を得ることができ、さらに重要なのは、テキストクエリを使って大きなビデオデータベースのコンテンツを効率的に検索できることだ。
エゴセントリックなビデオは長く、多くのアクティビティやイベントを含んでいるため、ビデオからテキストへのアルゴリズムを使うことで何千もの記述が生まれ、その多くが正しくない。
そこで本稿では,ビデオセグメントの記述を同時に生成し,その結果をエンドツーエンドで要約するマルチタスク学習手法を提案する。
我々は一連のビデオショットを入力し、ネットワークは各ショットのテキスト記述を生成する。
次に、弱い教師付き目標で訓練された視覚言語コンテンツマッチング部は、正しい記述を識別する。
最後に、我々のネットワークの最後のコンポーネントであるpurport networkは、説明をまとめて評価し、重要な情報を含むものを選択する。
ビデオに生成された何千もの説明のうち、いくつかの有益な文がユーザーに返される。
UTエゴセントリックなビデオデータセットでは、各ビデオの長さが3~5時間で、平均3000以上のテキスト記述が関連付けられています。
生成したテキスト要約は、生成した記述の5%(以下)しか含まないが、自然言語処理において確立されたメトリクスを使用して、テキストドメインの基幹要約と比較される。
関連論文リスト
- Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。