論文の概要: Multiple Visual-Semantic Embedding for Video Retrieval from Query
Sentence
- arxiv url: http://arxiv.org/abs/2004.07967v1
- Date: Thu, 16 Apr 2020 21:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:55:04.575253
- Title: Multiple Visual-Semantic Embedding for Video Retrieval from Query
Sentence
- Title(参考訳): 問合せ文からの映像検索のためのマルチビジュアル・セマンティクス埋め込み
- Authors: Huy Manh Nguyen, Tomo Miyazaki, Yoshihiro Sugaya, Shinichiro Omachi
- Abstract要約: ビジュアル・セマンティック・埋め込みは、関連ビデオと文のインスタンスが互いに近接している共同埋め込み空間を学習することを目的としている。
一つのスペースは、様々なビデオや文を収容するのに十分ではない。
本稿では,インスタンスを複数の個別埋め込み空間にマッピングする新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.602553195689513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual-semantic embedding aims to learn a joint embedding space where related
video and sentence instances are located close to each other. Most existing
methods put instances in a single embedding space. However, they struggle to
embed instances due to the difficulty of matching visual dynamics in videos to
textual features in sentences. A single space is not enough to accommodate
various videos and sentences. In this paper, we propose a novel framework that
maps instances into multiple individual embedding spaces so that we can capture
multiple relationships between instances, leading to compelling video
retrieval. We propose to produce a final similarity between instances by fusing
similarities measured in each embedding space using a weighted sum strategy. We
determine the weights according to a sentence. Therefore, we can flexibly
emphasize an embedding space. We conducted sentence-to-video retrieval
experiments on a benchmark dataset. The proposed method achieved superior
performance, and the results are competitive to state-of-the-art methods. These
experimental results demonstrated the effectiveness of the proposed multiple
embedding approach compared to existing methods.
- Abstract(参考訳): ビジュアル・セマンティック・埋め込みは、関連ビデオと文のインスタンスが互いに近接している共同埋め込み空間を学習することを目的としている。
ほとんどの既存メソッドは、インスタンスを単一の埋め込み空間に配置する。
しかし、ビデオの視覚的なダイナミクスと文章のテキスト的特徴とのマッチングが難しいため、インスタンスの埋め込みに苦労している。
ひとつのスペースだけでは、さまざまなビデオや文に対応できない。
本稿では,インスタンスを複数の個別埋め込み空間にマッピングすることで,複数のインスタンス間の関係をキャプチャし,魅力的なビデオ検索を実現する新しいフレームワークを提案する。
重み付き和戦略を用いて各埋め込み空間で測定された類似性を用いてインスタンス間の最終類似性を生成する。
文によって重みを決定する。
したがって、埋め込み空間を柔軟に強調することができる。
ベンチマークデータセット上で文間検索実験を行った。
提案手法は高い性能を達成し,その結果は最先端の手法と競合する。
これらの実験結果は,既存手法と比較して,提案手法の有効性を示した。
関連論文リスト
- Video-Text Retrieval by Supervised Sparse Multi-Grained Learning [22.17732989393653]
本稿では,ビデオとテキスト間で共有されるスパース空間を学習し,ビデオテキスト検索のための新しいスパース学習フレームワークであるS3MAを提案する。
テキストデータを手元に置き、提案した類似性とアライメント損失を用いて共有スパース空間を教師付きで学習し、更新する。
学習された共有空間と多粒度類似性から、ビデオテキスト検索ベンチマークによる実験により、既存の手法よりもS3MAの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-02-19T04:03:22Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Video and Text Matching with Conditioned Embeddings [81.81028089100727]
本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
論文 参考訳(メタデータ) (2021-10-21T17:31:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。