論文の概要: HUD: Hierarchical Uncertainty-Aware Disambiguation Network for Composed Video Retrieval
- arxiv url: http://arxiv.org/abs/2512.02792v1
- Date: Tue, 02 Dec 2025 14:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.910238
- Title: HUD: Hierarchical Uncertainty-Aware Disambiguation Network for Composed Video Retrieval
- Title(参考訳): HUD:構成ビデオ検索のための階層的不確かさを意識した曖昧さネットワーク
- Authors: Zhiwei Chen, Yupeng Hu, Zixu Li, Zhiheng Fu, Haokun Wen, Weili Guan,
- Abstract要約: 階層的不確実性認識型曖昧性ネットワーク(HUD)という,新しいビデオ検索フレームワークを提案する。
HUDは、ビデオとテキスト間の情報密度の格差を利用して、マルチモーダルクエリ理解を強化する最初のフレームワークである。
提案するHUDは,CIRタスクにも適用可能で,CVRタスクとCIRタスクの3つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 39.457158192955106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Video Retrieval (CVR) is a challenging video retrieval task that utilizes multi-modal queries, consisting of a reference video and modification text, to retrieve the desired target video. The core of this task lies in understanding the multi-modal composed query and achieving accurate composed feature learning. Within multi-modal queries, the video modality typically carries richer semantic content compared to the textual modality. However, previous works have largely overlooked the disparity in information density between these two modalities. This limitation can lead to two critical issues: 1) modification subject referring ambiguity and 2) limited detailed semantic focus, both of which degrade the performance of CVR models. To address the aforementioned issues, we propose a novel CVR framework, namely the Hierarchical Uncertainty-aware Disambiguation network (HUD). HUD is the first framework that leverages the disparity in information density between video and text to enhance multi-modal query understanding. It comprises three key components: (a) Holistic Pronoun Disambiguation, (b) Atomistic Uncertainty Modeling, and (c) Holistic-to-Atomistic Alignment. By exploiting overlapping semantics through holistic cross-modal interaction and fine-grained semantic alignment via atomistic-level cross-modal interaction, HUD enables effective object disambiguation and enhances the focus on detailed semantics, thereby achieving precise composed feature learning. Moreover, our proposed HUD is also applicable to the Composed Image Retrieval (CIR) task and achieves state-of-the-art performance across three benchmark datasets for both CVR and CIR tasks. The codes are available on https://zivchen-ty.github.io/HUD.github.io/.
- Abstract(参考訳): Composed Video Retrieval(CVR)は、参照ビデオと修正テキストからなるマルチモーダルクエリを使用して、所望のターゲットビデオを取得する、困難なビデオ検索タスクである。
このタスクの中核は、マルチモーダル合成クエリを理解し、正確な合成特徴学習を実現することである。
マルチモーダルクエリでは、ビデオモダリティは典型的には、テキストモダリティよりもリッチなセマンティックコンテンツを持つ。
しかし、以前の研究は、これらの2つのモード間の情報密度の相違を概ね見落としている。
この制限は2つの重大な問題を引き起こす可能性がある。
1)あいまいさと修正対象
2) CVRモデルの性能は低下するが, セマンティックフォーカスは限定的であった。
上記の課題に対処するため、我々は新しいCVRフレームワーク、すなわち階層的不確実性認識型曖昧化ネットワーク(HUD)を提案する。
HUDは、ビデオとテキスト間の情報密度の格差を利用して、マルチモーダルクエリ理解を強化する最初のフレームワークである。
主な構成要素は3つある。
(a)完備名詞の曖昧さ
(b)原子論的不確実性モデリング、及び
(c)全体論から原子論へのアライメント。
HUDは、全体論的相互モーダル相互作用と、原子レベルの相互モーダル相互作用によるきめ細かいセマンティックアライメントを通じて重なり合うセマンティクスを活用することにより、効果的なオブジェクトの曖昧化を可能にし、詳細なセマンティクスに焦点を絞ることを可能にし、正確な構成された特徴学習を実現する。
さらに,提案したHUDは,CIRタスクにも適用可能であり,CVRタスクとCIRタスクの3つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
コードはhttps://zivchen-ty.github.io/HUD.github.io/で公開されている。
関連論文リスト
- Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。