Fugu-MT 論文翻訳(概要): Knowledge-Refined Dual Context-Aware Network for Partially Relevant Video Retrieval

論文の概要: Knowledge-Refined Dual Context-Aware Network for Partially Relevant Video Retrieval

arxiv url: http://arxiv.org/abs/2603.23902v1
Date: Wed, 25 Mar 2026 03:44:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.11517
Title: Knowledge-Refined Dual Context-Aware Network for Partially Relevant Video Retrieval
Title（参考訳）: 部分関連ビデオ検索のための知識記述型デュアルコンテキスト認識ネットワーク
Authors: Junkai Yang, Qirui Wang, Yaoqing Jin, Shuai Ma, Minghan Xu, Shanmin Pang,
Abstract要約: KDC-Netは知識に精通したコンテキスト認識ネットワークである。テキスト側では、階層的なセマンティックアグリゲーションモジュールが、クエリセマンティクスを豊かにするために、マルチスケールのフレーズキューをキャプチャし、適応的に融合する。ビデオ側では、ダイナミック・テンポラル・アテンション(Dynamic Temporal Attention)機構は、相対的な位置エンコーディングと適応的な時間ウィンドウを用いて、局所的な時間的コヒーレンスで重要なイベントをハイライトする。 PRVRベンチマークの実験では、KDC-Netは最先端の手法、特に低モーメント・ツー・ビデオ比で一貫して優れていた。
参考スコア（独自算出の注目度）: 13.091084557639425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieving partially relevant segments from untrimmed videos remains difficult due to two persistent challenges: the mismatch in information density between text and video segments, and limited attention mechanisms that overlook semantic focus and event correlations. We present KDC-Net, a Knowledge-Refined Dual Context-Aware Network that tackles these issues from both textual and visual perspectives. On the text side, a Hierarchical Semantic Aggregation module captures and adaptively fuses multi-scale phrase cues to enrich query semantics. On the video side, a Dynamic Temporal Attention mechanism employs relative positional encoding and adaptive temporal windows to highlight key events with local temporal coherence. Additionally, a dynamic CLIP-based distillation strategy, enhanced with temporal-continuity-aware refinement, ensures segment-aware and objective-aligned knowledge transfer. Experiments on PRVR benchmarks show that KDC-Net consistently outperforms state-of-the-art methods, especially under low moment-to-video ratios.
Abstract（参考訳）: テキストとビデオセグメント間の情報密度のミスマッチ、セマンティックフォーカスとイベント相関を見渡す限定的な注意機構、という2つの永続的な課題のために、未トリミングビデオから部分的に関連付けられたセグメントを取得することは依然として困難である。 KDC-Netは、テキストと視覚の両方の観点からこれらの問題に対処する知識記述型コンテキスト認識ネットワークである。テキスト側では、階層的なセマンティックアグリゲーションモジュールが、クエリセマンティクスを豊かにするために、マルチスケールのフレーズキューをキャプチャし、適応的に融合する。ビデオ側では、ダイナミック・テンポラル・アテンション(Dynamic Temporal Attention)機構は、相対的な位置エンコーディングと適応的な時間ウィンドウを用いて、局所的な時間的コヒーレンスで重要なイベントをハイライトする。さらに、時間的連続性を考慮した蒸留により強化された動的CLIPベースの蒸留戦略により、セグメント認識および客観的な知識伝達が保証される。 PRVRベンチマークの実験では、KDC-Netは最先端の手法、特に低モーメント・ツー・ビデオ比で一貫して優れていた。

関連論文リスト

Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning [7.633598328818363]
そこで本稿では,局所化とキャプションを独立したコンポーネントに分割するロール固有クエリを提案する。次に、コントラストアライメントを用いて、対応する出力間のセマンティック一貫性を強制する。そこで我々は,キャプションのセマンティックリッチネスをさらに高めるために,コアイベント概念をキャプチャする軽量モジュールを提案する。
論文参考訳（メタデータ） (2026-03-12T02:04:09Z)
Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction [33.79474114703357]
我々は,CACMI (Context-Aware Cross-Modal Interaction) という,時間-意味の明示的なモデリングフレームワークを提案する。本モデルは,クロスモーダルフレームアグリゲーションとコンテキスト認識機能拡張という,2つのコアコンポーネントから構成される。 ActivityNet CaptionsとYouCook2データセットの実験は、CACMIが高密度ビデオキャプションタスクで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-11-13T09:48:12Z)
Multi-Level LVLM Guidance for Untrimmed Video Action Recognition [0.0]
本稿では,低レベルの視覚的特徴と高レベルの意味情報とのギャップを埋める新しいアーキテクチャであるイベント・テンポラライズド・ビデオ・トランスフォーマー(ECVT)を紹介する。 ActivityNet v1.3とTHUMOS14の実験では、ECVTは最先端のパフォーマンスを達成しており、平均mAPは40.5%、mAP@0.5は67.1%である。
論文参考訳（メタデータ） (2025-08-24T16:45:21Z)
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning [8.049305239825735]
本稿では,MCCL(Multi-Concept Cyclic Learning)と呼ばれる高密度ビデオキャプションネットワークを提案する。我々は各フレームに対して弱い教師付き概念検出を行い、検出された概念埋め込みをビデオ機能に統合してイベントキューを提供する。キャプションネットワークでは,ジェネレータがセマンティックマッチングを通じてイベントローカライズを誘導する循環的コラーニング戦略を確立する。
論文参考訳（メタデータ） (2024-12-16T05:48:44Z)
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。 CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文参考訳（メタデータ） (2024-12-14T07:28:38Z)
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-03-28T13:32:49Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T13:07:05Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。 BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文参考訳（メタデータ） (2020-10-20T07:43:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。