論文の概要: Multi-Focused Video Group Activities Hashing
- arxiv url: http://arxiv.org/abs/2509.00490v1
- Date: Sat, 30 Aug 2025 13:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.25648
- Title: Multi-Focused Video Group Activities Hashing
- Title(参考訳): マルチフォーカスビデオグループ活動ハッシュ
- Authors: Zhongmiao Qi, Yan Jiang, Bolin Zhang, Lijun Guo, Chong Wang, Qiangbo Qian,
- Abstract要約: グループビデオ検索のための新しいSTVH(stemporal intertemporal hashing)手法を提案する。
そこで我々は,この難易度に対応するため,新しいM-STVH(マルチフォーカス検索グループビデオ)を改良版として提案する。
STVH と M-STVH の双方が利用可能なデータセットについて実験を行い,優れた結果が得られた。
- 参考スコア(独自算出の注目度): 14.438040940279109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the explosive growth of video data in various complex scenarios, quickly retrieving group activities has become an urgent problem. However, many tasks can only retrieve videos focusing on an entire video, not the activity granularity. To solve this problem, we propose a new STVH (spatiotemporal interleaved video hashing) technique for the first time. Through a unified framework, the STVH simultaneously models individual object dynamics and group interactions, capturing the spatiotemporal evolution on both group visual features and positional features. Moreover, in real-life video retrieval scenarios, it may sometimes require activity features, while at other times, it may require visual features of objects. We then further propose a novel M-STVH (multi-focused spatiotemporal video hashing) as an enhanced version to handle this difficult task. The advanced method incorporates hierarchical feature integration through multi-focused representation learning, allowing the model to jointly focus on activity semantics features and object visual features. We conducted comparative experiments on publicly available datasets, and both STVH and M-STVH can achieve excellent results.
- Abstract(参考訳): 様々な複雑なシナリオにおける映像データの爆発的増加に伴い、グループ活動の迅速検索が緊急問題となっている。
しかし、多くのタスクは、アクティビティの粒度ではなく、ビデオ全体に焦点を当てたビデオのみを検索できる。
そこで本研究では,STVH(spatiotemporal interleaved video hashing)手法を初めて提案する。
統合されたフレームワークを通じて、STVHは個々のオブジェクトのダイナミクスとグループ間の相互作用を同時にモデル化し、グループ視覚的特徴と位置的特徴の両方の時空間的進化をキャプチャする。
さらに、リアルタイムビデオ検索のシナリオでは、アクティビティ機能を必要とする場合もありますが、他の場合、オブジェクトの視覚的特徴を必要とする場合もあります。
さらに,この課題に対処するための拡張版として,新しいM-STVH(multi- focus spatiotemporal video hashing)を提案する。
高度な手法は多焦点表現学習による階層的特徴統合を取り入れ、モデルがアクティビティセマンティクス機能とオブジェクトの視覚的特徴に共同でフォーカスできるようにする。
公開データセットの比較実験を行い,STVHとM-STVHの双方で優れた結果が得られた。
関連論文リスト
- V$^2$Dial: Unification of Video and Visual Dialog via Multimodal Experts [44.33388344586592]
V$2$Dialは、マルチモーダルな会話タスクのための画像とビデオの入力データを同時に扱うための、エキスパートベースの新しいモデルである。
本稿では,画像とビデオの空間的特徴と時間的特徴を共同で学習する単一モデルを用いて,両方のタスクを統合することを提案する。
論文 参考訳(メタデータ) (2025-03-03T21:27:38Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。
計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。
我々の表現は多用途であり、様々な長いビデオ理解タスクに応用できる。
論文 参考訳(メタデータ) (2024-12-02T18:46:12Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。