論文の概要: Interpretable Embedding for Ad-hoc Video Search
- arxiv url: http://arxiv.org/abs/2402.11812v1
- Date: Mon, 19 Feb 2024 03:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:43:52.318896
- Title: Interpretable Embedding for Ad-hoc Video Search
- Title(参考訳): アドホックビデオ検索のための解釈可能な埋め込み
- Authors: Jiaxin Wu, Chong-Wah Ngo
- Abstract要約: 本稿では,統合されたデュアルタスク学習のためのニューラルネットワークに,特徴埋め込みと概念解釈を統合する。
これは、埋め込み機能または概念を使用することで、TRECVidベンチマークデータセット上でかなりの検索改善が達成可能であることを実証的に示している。
- 参考スコア(独自算出の注目度): 36.29531713757939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering query with semantic concepts has long been the mainstream approach
for video search. Until recently, its performance is surpassed by concept-free
approach, which embeds queries in a joint space as videos. Nevertheless, the
embedded features as well as search results are not interpretable, hindering
subsequent steps in video browsing and query reformulation. This paper
integrates feature embedding and concept interpretation into a neural network
for unified dual-task learning. In this way, an embedding is associated with a
list of semantic concepts as an interpretation of video content. This paper
empirically demonstrates that, by using either the embedding features or
concepts, considerable search improvement is attainable on TRECVid benchmarked
datasets. Concepts are not only effective in pruning false positive videos, but
also highly complementary to concept-free search, leading to large margin of
improvement compared to state-of-the-art approaches.
- Abstract(参考訳): セマンティック概念による質問への回答は、ビデオ検索の主流となっている。
最近まで、そのパフォーマンスはコンセプトフリーのアプローチに勝っており、クエリをビデオとしてジョイントスペースに埋め込む。
それでも、組み込み機能や検索結果は解釈できないため、ビデオ閲覧やクエリの再構成のステップが妨げられる。
本稿では,機能埋め込みと概念解釈をニューラルネットワークに統合し,デュアルタスク学習を行う。
このように、埋め込みは、ビデオコンテンツの解釈として意味概念のリストに関連付けられている。
本稿では,組込み機能や概念を用いることで,TRECVidベンチマークデータセット上でかなりの検索改善が達成できることを実証的に示す。
コンセプトは偽陽性ビデオのプルーニングに効果があるだけでなく、概念のない検索に非常に相補的であり、最先端のアプローチと比べて大きな改善点となっている。
関連論文リスト
- Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Spatio-Temporal Perturbations for Video Attribution [33.19422909074655]
この属性法は、不透明なニューラルネットワークを視覚的に解釈するための方向を提供する。
本稿では,多様な映像理解ネットワークに適合する汎用属性法について検討する。
本稿では,新たに提案した信頼度測定によって検証される信頼性のある客観的指標について紹介する。
論文 参考訳(メタデータ) (2021-09-01T07:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。