論文の概要: Show Me What I Like: Detecting User-Specific Video Highlights Using
Content-Based Multi-Head Attention
- arxiv url: http://arxiv.org/abs/2207.08352v1
- Date: Mon, 18 Jul 2022 02:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 00:40:55.821248
- Title: Show Me What I Like: Detecting User-Specific Video Highlights Using
Content-Based Multi-Head Attention
- Title(参考訳): コンテンツに基づくマルチヘッドアテンションによるユーザ特有のビデオハイライトの検出
- Authors: Uttaran Bhattacharya and Gang Wu and Stefano Petrangeli and
Viswanathan Swaminathan and Dinesh Manocha
- Abstract要約: そこで本稿では,従来視聴したビデオに表示されていたハイライトクリップに基づいて,対象ビデオの個別化ハイライトを検出する手法を提案する。
本手法は,対象物と人的活動の事前学習機能を用いて,好むクリップの内容と対象ビデオの両方を明示的に活用する。
- 参考スコア(独自算出の注目度): 58.44096082508686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to detect individualized highlights for users on given
target videos based on their preferred highlight clips marked on previous
videos they have watched. Our method explicitly leverages the contents of both
the preferred clips and the target videos using pre-trained features for the
objects and the human activities. We design a multi-head attention mechanism to
adaptively weigh the preferred clips based on their object- and
human-activity-based contents, and fuse them using these weights into a single
feature representation for each user. We compute similarities between these
per-user feature representations and the per-frame features computed from the
desired target videos to estimate the user-specific highlight clips from the
target videos. We test our method on a large-scale highlight detection dataset
containing the annotated highlights of individual users. Compared to current
baselines, we observe an absolute improvement of 2-4% in the mean average
precision of the detected highlights. We also perform extensive ablation
experiments on the number of preferred highlight clips associated with each
user as well as on the object- and human-activity-based feature representations
to validate that our method is indeed both content-based and user-specific.
- Abstract(参考訳): そこで本研究では,視聴者が視聴したビデオの優先ハイライトクリップに基づいて,対象ビデオの個人別ハイライトを検出する手法を提案する。
本手法は,対象物と人的活動の事前学習機能を用いて,好むクリップの内容と対象ビデオの両方を明示的に活用する。
対象と人間の行動に基づくコンテンツに基づいて、好みのクリップを適応的に重み付けするマルチヘッドアテンション機構を設計し、これらの重み付けをユーザ毎に単一の特徴表現に融合する。
ユーザ毎の特徴表現と所望のターゲットビデオから計算されたフレーム毎の特徴の類似度を計算し、対象ビデオからユーザ固有のハイライトクリップを推定する。
本手法は,個々のユーザの注釈付きハイライトを含む大規模ハイライト検出データセット上でテストする。
現在の基準値と比較して,検出されたハイライトの平均精度は2~4%向上した。
また,各ユーザの好みのハイライトクリップ数や,オブジェクトやヒューマンアクティビティに基づく特徴表現について,広範なアブレーション実験を行い,本手法がコンテンツベースとユーザ固有の両方であることを検証した。
関連論文リスト
- Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。
VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。
提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文 参考訳(メタデータ) (2024-11-05T22:14:35Z) - BeFA: A General Behavior-driven Feature Adapter for Multimedia Recommendation [3.956286230894268]
マルチメディアレコメンデータシステムは、ユーザの好みをモデル化するために行動情報とコンテンツ情報を活用することに重点を置いている。
事前訓練された機能エンコーダは、過剰な嗜好と関係のない詳細を含む、コンテンツ全体から機能を同時に抽出することが多い。
本稿では,これらの問題に対処するために,効果的で効率的な行動駆動型特徴適応器(BeFA)を提案する。
論文 参考訳(メタデータ) (2024-06-01T06:53:03Z) - Learning User Embeddings from Human Gaze for Personalised Saliency Prediction [12.361829928359136]
本稿では,自然画像のペアと対応する相性マップからユーザ埋め込みを抽出する新しい手法を提案する。
提案手法のコアとなるのは,異なるユーザのイメージと個人満足度マップのペアを対比することにより,ユーザの埋め込みを学習する,シームズ畳み込みニューラルエンコーダである。
論文 参考訳(メタデータ) (2024-03-20T14:58:40Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - PR-Net: Preference Reasoning for Personalized Video Highlight Detection [34.71807317380797]
本稿では,フレームレベルのハイライト予測を考慮し,多種多様な関心事を考慮した簡易かつ効率的な選好推論フレームワーク(PR-Net)を提案する。
提案手法は, 平均精度が12%向上し, 最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2021-09-04T06:12:13Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。