Fugu-MT 論文翻訳(概要): Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval

論文の概要: Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval

arxiv url: http://arxiv.org/abs/2310.08009v1
Date: Thu, 12 Oct 2023 03:21:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 13:02:38.273302
Title: Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval
Title（参考訳）: 教師なしビデオ検索のための二ストリーム知識保存ハッシュ
Authors: Pandeng Li, Hongtao Xie, Jiannan Ge, Lei Zhang, Shaobo Min, Yongdong Zhang
Abstract要約: 時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
参考スコア（独自算出の注目度）: 67.52910255064762
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised video hashing usually optimizes binary codes by learning to reconstruct input videos. Such reconstruction constraint spends much effort on frame-level temporal context changes without focusing on video-level global semantics that are more useful for retrieval. Hence, we address this problem by decomposing video information into reconstruction-dependent and semantic-dependent information, which disentangles the semantic extraction from reconstruction constraint. Specifically, we first design a simple dual-stream structure, including a temporal layer and a hash layer. Then, with the help of semantic similarity knowledge obtained from self-supervision, the hash layer learns to capture information for semantic retrieval, while the temporal layer learns to capture the information for reconstruction. In this way, the model naturally preserves the disentangled semantics into binary codes. Validated by comprehensive experiments, our method consistently outperforms the state-of-the-arts on three video benchmarks.
Abstract（参考訳）: 教師なしビデオハッシュは通常、入力ビデオの再構築を学習することでバイナリコードを最適化する。このような再構成制約は、検索に有用なビデオレベルのグローバルセマンティクスに焦点を合わせることなく、フレームレベルの時間的コンテキスト変化に多くの労力を費やす。そこで,本稿では,映像情報を再構成依存情報と意味依存情報に分解することでこの問題に対処する。具体的には,まず時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。そして、自己スーパービジョンから得られた意味類似性知識の助けを借りて、ハッシュ層が意味検索のための情報をキャプチャし、時間層が再構築のための情報をキャプチャする。このようにして、モデルは自然に二進法コードへの不整合セマンティクスを保存する。総合的な実験によって検証された本手法は,3つのビデオベンチマークにおいて常に最先端の手法より優れている。

関連論文リスト

When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。 T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文参考訳（メタデータ） (2025-03-19T10:50:03Z)
$ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文参考訳（メタデータ） (2024-10-05T08:27:53Z)
CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved Self-Supervised Video Hashing [45.216750448864275]
ローカルな冗長性と複雑なグローバルなビデオフレームのため、ビデオ検索の正確なハッシュを学習することは困難である。提案するContrastive Hash-temporal Information (CHAIN) は、4つのビデオベンチマークデータセット上で最先端の自己監督型ビデオハッシュ法より優れている。
論文参考訳（メタデータ） (2023-10-29T07:36:11Z)
Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-04-27T12:16:44Z)
SELF-VS: Self-supervised Encoding Learning For Video Summarization [6.21295508577576]
本稿では,知識蒸留を用いてトランスフォーマーエンコーダを事前学習する自己教師型ビデオ表現学習手法を提案する。提案手法は,フレーム重要度スコアに基づいて構築されたセマンティックビデオ表現と,映像分類を訓練したCNNから派生した表現とをマッチングする。
論文参考訳（メタデータ） (2023-03-28T14:08:05Z)
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。意味的なコンテキストと時間の複雑さを考慮に入れます。提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文参考訳（メタデータ） (2023-01-06T10:00:06Z)
Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文参考訳（メタデータ） (2022-11-21T06:48:14Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。