論文の概要: Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval
- arxiv url: http://arxiv.org/abs/2007.02503v1
- Date: Mon, 6 Jul 2020 02:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:35:25.591741
- Title: Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval
- Title(参考訳): 複雑問合せビデオ検索のための木型クロスモーダル符号化
- Authors: Xun Yang, Jianfeng Dong, Yixin Cao, Xun Wang, Meng Wang, Tat-Seng Chua
- Abstract要約: インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
- 参考スコア(独自算出の注目度): 98.62404433761432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of user-generated videos on the Internet has intensified the
need for text-based video retrieval systems. Traditional methods mainly favor
the concept-based paradigm on retrieval with simple queries, which are usually
ineffective for complex queries that carry far more complex semantics.
Recently, embedding-based paradigm has emerged as a popular approach. It aims
to map the queries and videos into a shared embedding space where
semantically-similar texts and videos are much closer to each other. Despite
its simplicity, it forgoes the exploitation of the syntactic structure of text
queries, making it suboptimal to model the complex queries.
To facilitate video retrieval with complex queries, we propose a
Tree-augmented Cross-modal Encoding method by jointly learning the linguistic
structure of queries and the temporal representation of videos. Specifically,
given a complex user query, we first recursively compose a latent semantic tree
to structurally describe the text query. We then design a tree-augmented query
encoder to derive structure-aware query representation and a temporal attentive
video encoder to model the temporal characteristics of videos. Finally, both
the query and videos are mapped into a joint embedding space for matching and
ranking. In this approach, we have a better understanding and modeling of the
complex queries, thereby achieving a better video retrieval performance.
Extensive experiments on large scale video retrieval benchmark datasets
demonstrate the effectiveness of our approach.
- Abstract(参考訳): インターネット上のユーザー生成ビデオの急速な成長は、テキストベースのビデオ検索システムの必要性を高めた。
従来の手法は主に単純なクエリによる検索に関する概念に基づくパラダイムを好んでおり、通常はより複雑なセマンティックスを持つ複雑なクエリには効果がない。
近年,組込み型パラダイムが普及している。
クエリとビデオを、意味的に類似したテキストとビデオが互いにより近い共有埋め込み空間にマップすることを目指している。
その単純さにもかかわらず、テキストクエリの構文構造の利用を禁止し、複雑なクエリをモデル化するのに最適である。
複雑なクエリによるビデオ検索を容易にするために,クエリの言語構造とビデオの時間的表現を共同で学習する木拡張クロスモーダルエンコーディング手法を提案する。
具体的には、複雑なユーザクエリを前提として、テキストクエリを構造的に記述する潜在セマンティックツリーを再帰的に作成する。
次に,構造認識型問合せ表現を導出する木型問合せエンコーダと,映像の時間特性をモデル化する時間的注意映像エンコーダを設計した。
最後に、クエリとビデオの両方を、マッチングとランキングのための共同埋め込みスペースにマッピングする。
このアプローチでは,複雑なクエリの理解とモデリングが向上し,ビデオ検索性能が向上する。
大規模ビデオ検索ベンチマークデータセットの大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Dense but Efficient VideoQA for Intricate Compositional Reasoning [9.514382838449928]
複雑なタスクに対処するための変形性アテンション機構を備えたトランスフォーマーに基づく新しいビデオQA手法を提案する。
複雑な質問文内の係り受け構造は、言語埋め込みと組み合わせて、質問語間の意味的関係を容易に理解する。
論文 参考訳(メタデータ) (2022-10-19T05:01:20Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search
Engines for Large-Scale Video Retrieval [11.217452391653762]
VISIONEでは,テキストキーワード,オブジェクトとその空間的関係,色の発生,空間的,関係性,画像的類似性を用いて動画を検索することができる。
提案手法の特長は,ビデオから抽出したすべての情報を,単一のテキスト検索エンジンに便利なテキストエンコーディングを用いて符号化することである。
クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。
論文 参考訳(メタデータ) (2020-08-06T16:32:17Z) - Message Passing Query Embedding [4.035753155957698]
本稿では,クエリのグラフ表現を符号化するグラフニューラルネットワークを提案する。
モデルは、明示的な監督なしにエンティティタイプの概念を捉えたエンティティ埋め込みを学習することを示します。
論文 参考訳(メタデータ) (2020-02-06T17:40:01Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。