論文の概要: LIFI: Towards Linguistically Informed Frame Interpolation
- arxiv url: http://arxiv.org/abs/2010.16078v5
- Date: Wed, 2 Dec 2020 16:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:10:48.049588
- Title: LIFI: Towards Linguistically Informed Frame Interpolation
- Title(参考訳): LIFI:言語的にインフォームドされたフレーム補間を目指して
- Authors: Aradhya Neeraj Mathur, Devansh Batra, Yaman Kumar, Rajiv Ratn Shah,
Roger Zimmermann
- Abstract要約: 我々は、複数のディープラーニングビデオ生成アルゴリズムを用いて、欠落したフレームを生成することで、この問題を解決しようとしている。
音声理解のコンピュータビジョン映像生成モデルをテストするために,いくつかのデータセットをリリースする。
- 参考スコア(独自算出の注目度): 66.05105400951567
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we explore a new problem of frame interpolation for speech
videos. Such content today forms the major form of online communication. We try
to solve this problem by using several deep learning video generation
algorithms to generate the missing frames. We also provide examples where
computer vision models despite showing high performance on conventional
non-linguistic metrics fail to accurately produce faithful interpolation of
speech. With this motivation, we provide a new set of linguistically-informed
metrics specifically targeted to the problem of speech videos interpolation. We
also release several datasets to test computer vision video generation models
of their speech understanding.
- Abstract(参考訳): 本研究では,音声ビデオのフレーム補間における新しい問題について検討する。
現在、このようなコンテンツはオンラインコミュニケーションの主要な形態となっている。
我々は,いくつかのディープラーニングビデオ生成アルゴリズムを用いて,行方不明フレームを生成することにより,この問題を解決しようとしている。
また,従来の非言語指標で高い性能を示すコンピュータビジョンモデルでは,音声の忠実な補間が得られない例を示す。
このモチベーションにより、音声ビデオ補間問題に特化して、言語的にインフォームドされた新しい指標セットを提供する。
音声理解のコンピュータビジョン映像生成モデルをテストするためのデータセットもいくつかリリースしている。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。