論文の概要: Mining Multi-Modality Spatio-Temporal Cues for Video Important Person Identification
- arxiv url: http://arxiv.org/abs/2605.28604v1
- Date: Wed, 27 May 2026 15:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.15845
- Title: Mining Multi-Modality Spatio-Temporal Cues for Video Important Person Identification
- Title(参考訳): ビデオ重要人物識別のための多モード時空間キューのマイニング
- Authors: Xiao Wang, Minglei Yang, Bin Yang, Wenke Huang, Zheng Wang, Xin Xu, Mang Ye,
- Abstract要約: ビデオ重要人物(VIP)識別は、ビデオの中で最も影響力のある人物を自動的に識別することを目的としている。
本稿では,9,249のカテゴリからなる大規模有理付加データセットであるTemporal-VIPについて述べる。
- 参考スコア(独自算出の注目度): 66.15099321806618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying key individuals in video scenes is essential for applications such as automated video editing and intelligent surveillance. Current methods primarily focus on static images and immediate visual cues, overlooking the rich spatio-temporal information in videos. This leads to the phenomenon of Temporal Importance Shift (TIS), wherein individuals deemed significant in early frames may be demoted as the entire temporal context is considered. To address this, we introduce the Video Important Person (VIP) identification task, aimed at automatically identifying the most influential individuals in videos while providing textual rationales. We present Temporal-VIP, a large-scale rationale-annotated dataset consisting of 9,249 video segments across 11 categories with aligned importance rationales. To mitigate TIS, we develop the VIP-Net framework, which includes a Social Cue Encoder (SCE) for extracting multi-modal spatio-temporal cues, a Temporal Importance Rectifier (TIR) for hierarchical cue fusion and cross-modal alignment, and VIP Inference for ranking individuals. Experimental results show that VIP-Net achieves 67.3% accuracy, significantly outperforming state-of-the-art models (37.5%-53.9%) and yielding a mean rationale similarity of 0.63 to ground truth through feature-guided LLM refinement. The dataset and code are available at https://huggingface.co/datasets/yml2002/Temporal-VIP.
- Abstract(参考訳): ビデオシーンにおける重要な個人を特定することは、自動ビデオ編集やインテリジェントな監視といったアプリケーションに不可欠である。
現在の手法は主に静止画像と瞬間的な視覚的手がかりに焦点を合わせ、ビデオ内の豊富な時空間情報を見渡す。
これは、時間的重要度シフト(TIS)の現象につながり、初期フレームにおいて重要なと見なされる個人は、時間的文脈全体を考慮すると、取り下げられる可能性がある。
そこで本稿では,映像中の最も影響力のある人物を自動的に識別すると同時に,文章による合理化を図ったビデオ重要人物(VIP)識別タスクを紹介する。
本稿では,11カテゴリにわたる9,249の動画セグメントからなる大規模合理化アノテートデータセットであるTemporal-VIPについて述べる。
TISを緩和するために、マルチモーダル時空間キューを抽出するソーシャルキューエンコーダ(SCE)、階層的キュー融合とクロスモーダルアライメントのためのテンポラルインポートレクリプタ(TIR)、ランキング個人のためのVIP推論を含むVIP-Netフレームワークを開発する。
実験の結果、VIP-Netは67.3%の精度を達成し、最先端モデル(37.5%-53.9%)を著しく上回り、特徴誘導LLMの改良により0.63の理論的類似性が得られることがわかった。
データセットとコードはhttps://huggingface.co/datasets/yml2002/Temporal-VIPで公開されている。
関連論文リスト
- Object-Shot Enhanced Grounding Network for Egocentric Video [60.97916755629796]
我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。
具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。
我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
論文 参考訳(メタデータ) (2025-05-07T09:20:12Z) - MASR: Self-Reflective Reasoning through Multimodal Hierarchical Attention Focusing for Agent-based Video Understanding [0.8202721523031419]
本稿では,エージェントによる映像理解のための自己表現型推論フレームワークを提案する。
重要なイノベーションは、クエリに非常に関係のあるビデオのセグメントを検出し、優先順位付けできることにある。
論文 参考訳(メタデータ) (2025-04-24T02:54:40Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:02:35Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Personalizing Fast-Forward Videos Based on Visual and Textual Features
from Social Network [9.353403626477135]
我々は、ファーストパーソンビデオ(FPV)のためのパーソナライズされたファストフォワードビデオを自動的に作成する新しいアプローチを提案する。
提案手法では,ユーザのソーシャルネットワークからテキスト中心のデータを用いて,興味のあるトピックを推測し,好みに応じてスコアを入力フレームに割り当てる。
論文 参考訳(メタデータ) (2019-12-29T14:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。