論文の概要: Personalizing Fast-Forward Videos Based on Visual and Textual Features
from Social Network
- arxiv url: http://arxiv.org/abs/1912.12655v1
- Date: Sun, 29 Dec 2019 14:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 07:56:48.488747
- Title: Personalizing Fast-Forward Videos Based on Visual and Textual Features
from Social Network
- Title(参考訳): ソーシャル・ネットワークの視覚的・テキスト的特徴に基づく高速動画のパーソナライズ
- Authors: Washington L. S. Ramos, Michel M. Silva, Edson R. Araujo, Alan C.
Neves, Erickson R. Nascimento
- Abstract要約: 我々は、ファーストパーソンビデオ(FPV)のためのパーソナライズされたファストフォワードビデオを自動的に作成する新しいアプローチを提案する。
提案手法では,ユーザのソーシャルネットワークからテキスト中心のデータを用いて,興味のあるトピックを推測し,好みに応じてスコアを入力フレームに割り当てる。
- 参考スコア(独自算出の注目度): 9.353403626477135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growth of Social Networks has fueled the habit of people logging their
day-to-day activities, and long First-Person Videos (FPVs) are one of the main
tools in this new habit. Semantic-aware fast-forward methods are able to
decrease the watch time and select meaningful moments, which is key to increase
the chances of these videos being watched. However, these methods can not
handle semantics in terms of personalization. In this work, we present a new
approach to automatically creating personalized fast-forward videos for FPVs.
Our approach explores the availability of text-centric data from the user's
social networks such as status updates to infer her/his topics of interest and
assigns scores to the input frames according to her/his preferences. Extensive
experiments are conducted on three different datasets with simulated and
real-world users as input, achieving an average F1 score of up to 12.8
percentage points higher than the best competitors. We also present a user
study to demonstrate the effectiveness of our method.
- Abstract(参考訳): ソーシャルネットワークの成長は、日々の活動をロギングする人々の習慣を刺激し、ロングファーストパーソンビデオ(fpvs)はこの新しい習慣の主要なツールの1つだ。
セマンティクスを意識した高速フォワード手法は、視聴時間を短縮し、有意義なモーメントを選択することができる。
しかし、これらの手法はパーソナライズの観点から意味論を扱えない。
本研究では、FPV向けにパーソナライズされた高速フォワードビデオを自動的に作成するための新しいアプローチを提案する。
提案手法は,興味のある話題を推測するためのステータス更新など,ユーザのソーシャルネットワークからのテキスト中心データの可用性を探求し,その好みに応じてスコアを入力フレームに割り当てる。
シミュレーションと実世界のユーザを入力として3つの異なるデータセットで大規模な実験が行われ、F1スコアの平均12.8ポイントに達した。
また,本手法の有効性を示すため,ユーザ調査を行った。
関連論文リスト
- Delving Deep into Engagement Prediction of Short Videos [34.38399476375175]
本研究は,ユーザインタラクションが限定されたビデオのエンゲージメント予測の難しさを深く掘り下げるものである。
Snapchatの90,000の現実世界のショートビデオからなる、実質的なデータセットを紹介します。
本手法は,映像コンテンツから映像のエンゲージメントを純粋に予測できることを示す。
論文 参考訳(メタデータ) (2024-09-30T23:57:07Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Full-Body Awareness from Partial Observations [17.15829643665034]
本稿では,人間の3Dメッシュ回収システムをコンシューマビデオに適用する自己学習フレームワークを提案する。
本手法は,ベースラインに比べてPCKと人体判断を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-08-13T17:59:11Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - A gaze driven fast-forward method for first-person videos [2.362412515574206]
我々は、入力ビデオの高速化版を作成し、重要な瞬間をレコーダーに強調することにより、ファースト・パーソン・ビデオにおける関連情報へのアクセスの問題に対処する。
本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。
論文 参考訳(メタデータ) (2020-06-10T00:08:42Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。