論文の概要: A gaze driven fast-forward method for first-person videos
- arxiv url: http://arxiv.org/abs/2006.05569v1
- Date: Wed, 10 Jun 2020 00:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:41:32.036312
- Title: A gaze driven fast-forward method for first-person videos
- Title(参考訳): ファーストパーソンビデオの視線駆動高速フォワード法
- Authors: Alan Carvalho Neves, Michel Melo Silva, Mario Fernando Montenegro
Campos, Erickson Rangel Nascimento
- Abstract要約: 我々は、入力ビデオの高速化版を作成し、重要な瞬間をレコーダーに強調することにより、ファースト・パーソン・ビデオにおける関連情報へのアクセスの問題に対処する。
本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。
- 参考スコア(独自算出の注目度): 2.362412515574206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing data sharing and life-logging cultures are driving an
unprecedented increase in the amount of unedited First-Person Videos. In this
paper, we address the problem of accessing relevant information in First-Person
Videos by creating an accelerated version of the input video and emphasizing
the important moments to the recorder. Our method is based on an attention
model driven by gaze and visual scene analysis that provides a semantic score
of each frame of the input video. We performed several experimental evaluations
on publicly available First-Person Videos datasets. The results show that our
methodology can fast-forward videos emphasizing moments when the recorder
visually interact with scene components while not including monotonous clips.
- Abstract(参考訳): データ共有とライフログ文化の増大は、編集されていないファーストパーソンビデオの量が前例のない増加を招いている。
本稿では,入力映像の高速化版を作成し,レコーダに重要な瞬間を強調することで,ファーストパーソンビデオの関連情報にアクセスする問題に対処する。
本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。
公開されているFirst-Person Videosデータセットについて実験を行った。
提案手法は,モノトニッククリップを含まないまま,レコーダーがシーンコンポーネントと視覚的に相互作用する瞬間を強調する。
関連論文リスト
- Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。
VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。
提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文 参考訳(メタデータ) (2024-11-05T22:14:35Z) - Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence [13.2968942989609]
手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
論文 参考訳(メタデータ) (2024-07-18T23:09:14Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Few-shot Action Recognition via Intra- and Inter-Video Information
Maximization [28.31541961943443]
本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。
VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。
VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
論文 参考訳(メタデータ) (2023-05-10T13:05:43Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - A Sparse Sampling-based framework for Semantic Fast-Forward of
First-Person Videos [2.362412515574206]
ほとんどのアップロードされたビデオは忘れられ、コンピューターのフォルダーやウェブサイトに埋もれてしまった。
重み付き最小再構成問題として定式化された適応フレーム選択を提案する。
本手法は,最先端技術と同等の関連情報とスムーズさを保持することができるが,処理時間が少ない。
論文 参考訳(メタデータ) (2020-09-21T18:36:17Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。