論文の概要: GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2601.00584v1
- Date: Fri, 02 Jan 2026 06:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.532731
- Title: GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval
- Title(参考訳): GranAlign: ゼロショット動画モーメント検索のためのグラニュラリティ対応アライメントフレームワーク
- Authors: Mingyu Jeon, Sunjae Yoon, Jonghee Kim, Junyeoung Kim,
- Abstract要約: ゼロショットビデオモーメント検索(ゼロショットビデオモーメント検索、ZVMR)は、タスク固有のトレーニングデータに頼ることなく、自然言語クエリを用いて、未トリミングビデオ内の時間モーメントをローカライズするタスクである。
ZVMRの以前の研究は、共同空間におけるビデオと言語を表す高品質な事前訓練知識を活用して、アライメントの実現を試みた。
我々は、粗い意味表現と微妙な意味表現のギャップを埋める、Granularity-Aware Alignment (GranAlign)と呼ばれるトレーニング不要のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.668753075288308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot video moment retrieval (ZVMR) is the task of localizing a temporal moment within an untrimmed video using a natural language query without relying on task-specific training data. The primary challenge in this setting lies in the mismatch in semantic granularity between textual queries and visual content. Previous studies in ZVMR have attempted to achieve alignment by leveraging high-quality pre-trained knowledge that represents video and language in a joint space. However, these approaches failed to balance the semantic granularity between the pre-trained knowledge provided by each modality for a given scene. As a result, despite the high quality of each modality's representations, the mismatch in granularity led to inaccurate retrieval. In this paper, we propose a training-free framework, called Granularity-Aware Alignment (GranAlign), that bridges this gap between coarse and fine semantic representations. Our approach introduces two complementary techniques: granularity-based query rewriting to generate varied semantic granularities, and query-aware caption generation to embed query intent into video content. By pairing multi-level queries with both query-agnostic and query-aware captions, we effectively resolve semantic mismatches. As a result, our method sets a new state-of-the-art across all three major benchmarks (QVHighlights, Charades-STA, ActivityNet-Captions), with a notable 3.23% mAP@avg improvement on the challenging QVHighlights dataset.
- Abstract(参考訳): ゼロショットビデオモーメント検索(ゼロショットビデオモーメント検索、ZVMR)は、タスク固有のトレーニングデータに頼ることなく、自然言語クエリを用いて、未トリミングビデオ内の時間モーメントをローカライズするタスクである。
この設定の主な課題は、テキストクエリとビジュアルコンテンツの間のセマンティックな粒度のミスマッチである。
ZVMRの以前の研究は、共同空間におけるビデオと言語を表す高品質な事前訓練知識を活用して、アライメントの実現を試みた。
しかし、これらのアプローチは、与えられたシーンに対する各モダリティによって提供される事前訓練された知識間の意味的な粒度のバランスが取れなかった。
その結果、各モダリティの表現の質が高いにもかかわらず、粒度のミスマッチは不正確な検索につながった。
本稿では、粗い意味表現と微妙な意味表現のギャップを埋める、グラニュラリティ・アウェア・アライメント(Granularity-Aware Alignment, GranAlign)と呼ばれる学習自由フレームワークを提案する。
提案手法では,様々な意味的粒度を生成するための粒度に基づくクエリ書き換えと,ビデオコンテンツにクエリインテントを埋め込むクエリ対応キャプション生成という2つの補完手法を提案する。
クエリ非依存のキャプションとクエリ対応のキャプションを併用することで,セマンティックミスマッチを効果的に解決する。
その結果,QVHighlights,Charades-STA,ActivityNet-Captionsの3つの主要なベンチマーク(QVHighlights,Charades-STA,ActivityNet-Captions)にまたがって,新たな最先端のベンチマークを設定した。
関連論文リスト
- HUD: Hierarchical Uncertainty-Aware Disambiguation Network for Composed Video Retrieval [39.457158192955106]
階層的不確実性認識型曖昧性ネットワーク(HUD)という,新しいビデオ検索フレームワークを提案する。
HUDは、ビデオとテキスト間の情報密度の格差を利用して、マルチモーダルクエリ理解を強化する最初のフレームワークである。
提案するHUDは,CIRタスクにも適用可能で,CVRタスクとCIRタスクの3つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-02T14:10:16Z) - Temporal Grounding as a Learning Signal for Referring Video Object Segmentation [29.646697516547558]
Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としており、ビジュアルコンテンツとテキストクエリの正確なアライメントを必要とする。
既存の手法は、主に訓練中にフレームサンプリングとすべての可視物体の監督が区別できないため、意味的ミスアライメントに悩まされることが多い。
私たちは、MeViSベンチマークに基づいて構築されたデータセットであるMeViS-Mを紹介します。
論文 参考訳(メタデータ) (2025-08-16T07:34:43Z) - Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video
Moment Retrieval [31.42856682276394]
Video Moment Retrieval (VMR) は、与えられた言語クエリに対応する未トリミングビデオの時間セグメントを検索することを目的としている。
既存の戦略は、モダリティの不均衡問題を無視するため、しばしば準最適である。
我々は、よりバランスの取れたアライメントのための新しいフレームワークである、Modal-Enhanced Semantic Modeling (MESM)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T13:38:48Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。