論文の概要: A Sparse Sampling-based framework for Semantic Fast-Forward of
First-Person Videos
- arxiv url: http://arxiv.org/abs/2009.11063v1
- Date: Mon, 21 Sep 2020 18:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 05:15:55.934119
- Title: A Sparse Sampling-based framework for Semantic Fast-Forward of
First-Person Videos
- Title(参考訳): スパースサンプリングに基づくファーストパーソンビデオのセマンティック高速転送フレームワーク
- Authors: Michel Melo Silva, Washington Luis Souza Ramos, Mario Fernando
Montenegro Campos, Erickson Rangel Nascimento
- Abstract要約: ほとんどのアップロードされたビデオは忘れられ、コンピューターのフォルダーやウェブサイトに埋もれてしまった。
重み付き最小再構成問題として定式化された適応フレーム選択を提案する。
本手法は,最先端技術と同等の関連情報とスムーズさを保持することができるが,処理時間が少ない。
- 参考スコア(独自算出の注目度): 2.362412515574206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Technological advances in sensors have paved the way for digital cameras to
become increasingly ubiquitous, which, in turn, led to the popularity of the
self-recording culture. As a result, the amount of visual data on the Internet
is moving in the opposite direction of the available time and patience of the
users. Thus, most of the uploaded videos are doomed to be forgotten and
unwatched stashed away in some computer folder or website. In this paper, we
address the problem of creating smooth fast-forward videos without losing the
relevant content. We present a new adaptive frame selection formulated as a
weighted minimum reconstruction problem. Using a smoothing frame transition and
filling visual gaps between segments, our approach accelerates first-person
videos emphasizing the relevant segments and avoids visual discontinuities.
Experiments conducted on controlled videos and also on an unconstrained dataset
of First-Person Videos (FPVs) show that, when creating fast-forward videos, our
method is able to retain as much relevant information and smoothness as the
state-of-the-art techniques, but in less processing time.
- Abstract(参考訳): センサーの技術的進歩は、デジタルカメラがますますユビキタスになり、その結果、自己記録文化の人気が高まった。
その結果、インターネット上の視覚的データの量は、ユーザの利用可能な時間と忍耐力とは逆方向に移動している。
したがって、アップロードされたビデオのほとんどは忘れ去られ、コンピュータのフォルダーやウェブサイトに保管されている。
本稿では,関連コンテンツを失うことなく,スムーズな高速動画作成の問題に対処する。
重み付き最小再構成問題として定式化した新しい適応フレーム選択法を提案する。
本手法は,スムーズなフレーム遷移とセグメント間の視覚的ギャップを埋めることにより,関連セグメントを強調する一対ビデオの高速化と,視覚的不連続を回避する。
制御されたビデオやfpvs(first-person video)のデータセットで行った実験では、高速にフォワード動画を作成する場合、最先端の技術と同等に関連性のある情報と滑らかさを保ちながら、処理時間を短縮できることを示した。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Retargeting video with an end-to-end framework [14.270721529264929]
本稿では,動画を任意の比率に再ターゲティングするためのエンドツーエンドのRETVI手法を提案する。
私たちのシステムは、以前よりも品質と実行時間で優れています。
論文 参考訳(メタデータ) (2023-11-08T04:56:41Z) - Blurry Video Compression: A Trade-off between Visual Enhancement and
Data Compression [65.8148169700705]
既存のビデオ圧縮(VC)手法は主に、ビデオ内の連続フレーム間の空間的および時間的冗長性を減らすことを目的としている。
これまでの研究は、インスタント(既知の)露光時間やシャッタースピードなどの特定の設定で取得されたビデオに対して、顕著な成果を上げてきた。
本研究では,シーン内のカメラ設定やダイナミックスによって,所定の映像がぼやけてしまうという一般的なシナリオにおいて,VCの問題に取り組む。
論文 参考訳(メタデータ) (2023-11-08T02:17:54Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - A gaze driven fast-forward method for first-person videos [2.362412515574206]
我々は、入力ビデオの高速化版を作成し、重要な瞬間をレコーダーに強調することにより、ファースト・パーソン・ビデオにおける関連情報へのアクセスの問題に対処する。
本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。
論文 参考訳(メタデータ) (2020-06-10T00:08:42Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。