論文の概要: Boosting Video-Text Retrieval with Explicit High-Level Semantics
- arxiv url: http://arxiv.org/abs/2208.04215v2
- Date: Tue, 9 Aug 2022 03:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 10:26:31.458829
- Title: Boosting Video-Text Retrieval with Explicit High-Level Semantics
- Title(参考訳): 明示的なハイレベルセマンティクスによるビデオテキスト検索の促進
- Authors: Haoran Wang, Di Xu, Dongliang He, Fu Li, Zhong Ji, Jungong Han, Errui
Ding
- Abstract要約: VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 115.66219386097295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-text retrieval (VTR) is an attractive yet challenging task for
multi-modal understanding, which aims to search for relevant video (text) given
a query (video). Existing methods typically employ completely heterogeneous
visual-textual information to align video and text, whilst lacking the
awareness of homogeneous high-level semantic information residing in both
modalities. To fill this gap, in this work, we propose a novel
visual-linguistic aligning model named HiSE for VTR, which improves the
cross-modal representation by incorporating explicit high-level semantics.
First, we explore the hierarchical property of explicit high-level semantics,
and further decompose it into two levels, i.e. discrete semantics and holistic
semantics. Specifically, for visual branch, we exploit an off-the-shelf
semantic entity predictor to generate discrete high-level semantics. In
parallel, a trained video captioning model is employed to output holistic
high-level semantics. As for the textual modality, we parse the text into three
parts including occurrence, action and entity. In particular, the occurrence
corresponds to the holistic high-level semantics, meanwhile both action and
entity represent the discrete ones. Then, different graph reasoning techniques
are utilized to promote the interaction between holistic and discrete
high-level semantics. Extensive experiments demonstrate that, with the aid of
explicit high-level semantics, our method achieves the superior performance
over state-of-the-art methods on three benchmark datasets, including MSR-VTT,
MSVD and DiDeMo.
- Abstract(参考訳): ビデオテキスト検索(VTR)は、クエリ(ビデオ)が与えられた関連ビデオ(テキスト)を検索することを目的とした、マルチモーダル理解のための魅力的な課題である。
既存の手法では、ビデオとテキストを整列するために全く異質な視覚的なテキスト情報を用いるが、同時に均質な高レベル意味情報の認識が欠如している。
このギャップを埋めるために,本研究では,高次セマンティクスを明示的に組み込むことで,モーダル表現を改良したHiSE for VTRという新しい視覚言語整合モデルを提案する。
まず、明示的なハイレベルセマンティクスの階層的性質を調べ、さらに2つのレベル、すなわち離散的セマンティクスと全体論的セマンティクスに分解する。
具体的には,市販のセマンティクスエンティティ予測器を用いて,個別のハイレベルセマンティクスを生成する。
並行して、訓練されたビデオキャプションモデルを用いて、全体論的なハイレベルセマンティクスを出力する。
テキストのモダリティについては、テキストを発生、動作、エンティティの3つの部分にパースします。
特に、出現は全体論的高レベル意味論に対応し、一方行動と実体は離散的な意味論を表す。
次に、グラフ推論技術を用いて、全体論的および離散的な高レベルセマンティクス間の相互作用を促進する。
MSR-VTT, MSVD, DiDeMoを含む3つのベンチマークデータセットにおいて, 高レベルセマンティクスの明示的な活用により, 最先端の手法よりも優れた性能が得られることを示す。
関連論文リスト
- Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video
Moment Retrieval [31.42856682276394]
Video Moment Retrieval (VMR) は、与えられた言語クエリに対応する未トリミングビデオの時間セグメントを検索することを目的としている。
既存の戦略は、モダリティの不均衡問題を無視するため、しばしば準最適である。
我々は、よりバランスの取れたアライメントのための新しいフレームワークである、Modal-Enhanced Semantic Modeling (MESM)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T13:38:48Z) - GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - A semantically enhanced dual encoder for aspect sentiment triplet
extraction [0.7291396653006809]
アスペクト・センチメント・トリプルト抽出(ASTE)はアスペクト・ベースの感情分析(ABSA)の重要なサブタスクである
従来の研究は、革新的なテーブル充填戦略によるASTEの強化に重点を置いてきた。
本稿では,BERTをベースとした基本エンコーダと,Bi-LSTMネットワークとGCN(Graph Convolutional Network)で構成される特定のエンコーダの両方を利用するフレームワークを提案する。
ベンチマークデータセットを用いた実験により,提案フレームワークの最先端性能を実証した。
論文 参考訳(メタデータ) (2023-06-14T09:04:14Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Semantic Role Aware Correlation Transformer for Text to Video Retrieval [23.183653281610866]
本稿では,テキストや動画をオブジェクト,空間的コンテキスト,時間的コンテキストのセマンティックな役割へと明示的に切り離す新しいトランスフォーマーを提案する。
一般的なYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2022-06-26T11:28:03Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文 参考訳(メタデータ) (2021-11-24T13:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。