論文の概要: HieraMamba: Video Temporal Grounding via Hierarchical Anchor-Mamba Pooling
- arxiv url: http://arxiv.org/abs/2510.23043v1
- Date: Mon, 27 Oct 2025 06:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.47075
- Title: HieraMamba: Video Temporal Grounding via Hierarchical Anchor-Mamba Pooling
- Title(参考訳): HieraMamba:Hierarchical Anchor-Mamba Poolingによるビデオテンポラルグラウンド
- Authors: Joungbin An, Kristen Grauman,
- Abstract要約: HieraMambaは階層的なアーキテクチャで、時間的構造と規模にわたって意味的な豊かさを保ちます。
Ego4D-NLQ、MAD、TACoSに新たな最先端技術を導入し、長い、トリミングされていないビデオの正確な時間的忠実なローカライゼーションを実証した。
- 参考スコア(独自算出の注目度): 52.10845971383909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding, the task of localizing the start and end times of a natural language query in untrimmed video, requires capturing both global context and fine-grained temporal detail. This challenge is particularly pronounced in long videos, where existing methods often compromise temporal fidelity by over-downsampling or relying on fixed windows. We present HieraMamba, a hierarchical architecture that preserves temporal structure and semantic richness across scales. At its core are Anchor-MambaPooling (AMP) blocks, which utilize Mamba's selective scanning to produce compact anchor tokens that summarize video content at multiple granularities. Two complementary objectives, anchor-conditioned and segment-pooled contrastive losses, encourage anchors to retain local detail while remaining globally discriminative. HieraMamba sets a new state-of-the-art on Ego4D-NLQ, MAD, and TACoS, demonstrating precise, temporally faithful localization in long, untrimmed videos.
- Abstract(参考訳): 自然言語クエリの開始時刻と終了時刻を非トリミングビデオでローカライズするタスクであるビデオ時間グラウンドは、グローバルなコンテキストと微細な時間的詳細の両方をキャプチャする必要がある。
この課題は特に長いビデオで顕著であり、既存の手法ではオーバーサンプリングや固定ウィンドウへの依存によって時間的忠実度を損なうことが多い。
階層型アーキテクチャであるHieraMambaについて述べる。
Anchor-MambaPooling (AMP)ブロックは、Mambaの選択的スキャンを利用して、複数の粒度でビデオコンテンツを要約するコンパクトなアンカートークンを生成する。
アンカー条件付きとセグメントプール付きコントラスト損失の2つの補完目的は、アンカーがグローバルな差別性を維持しながら局所的な詳細を維持することを奨励する。
HieraMambaは、Ego4D-NLQ、MAD、TACoSに新しい最先端技術を導入し、長い、トリミングされていないビデオで正確な、時間的に忠実なローカライゼーションを実証した。
関連論文リスト
- SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding [6.980340270823506]
SceneRAGは,映像を物語に一貫性のあるシーンに分割するフレームワークである。
各シーンについて、このフレームワークは視覚とテキストの両方のモダリティから情報を融合し、エンティティ関係を抽出する。
LongerVideosベンチマークの実験では、134時間以上の多様なコンテンツがあり、SceneRAGが以前のベースラインを大幅に上回っていることを確認した。
論文 参考訳(メタデータ) (2025-06-09T10:00:54Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved
Self-Supervised Video Hashing [45.216750448864275]
ローカルな冗長性と複雑なグローバルなビデオフレームのため、ビデオ検索の正確なハッシュを学習することは困難である。
提案するContrastive Hash-temporal Information (CHAIN) は、4つのビデオベンチマークデータセット上で最先端の自己監督型ビデオハッシュ法より優れている。
論文 参考訳(メタデータ) (2023-10-29T07:36:11Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Short-Term and Long-Term Context Aggregation Network for Video
Inpainting [126.06302824297948]
Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。
本稿では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキスト集約ネットワークを提案する。
実験により,最先端の手法よりも優れた塗布結果と高速塗布速度が得られた。
論文 参考訳(メタデータ) (2020-09-12T03:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。