論文の概要: Learning Partially-Decorrelated Common Spaces for Ad-hoc Video Search
- arxiv url: http://arxiv.org/abs/2508.02340v1
- Date: Mon, 04 Aug 2025 12:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.324297
- Title: Learning Partially-Decorrelated Common Spaces for Ad-hoc Video Search
- Title(参考訳): アドホック動画検索のための部分的Decorrelated Common Spacesの学習
- Authors: Fan Hu, Zijie Xin, Xirong Li,
- Abstract要約: アドホックビデオ検索(AVS)の主な課題は、関連ビデオの視覚的多様性である。
AVSタスクの現在のソリューションは、主に複数の機能を1つ以上の共通スペースに融合する。
本稿では,部分的決定関連共通空間を学習するためのLPDを提案する。
- 参考スコア(独自算出の注目度): 12.702323275367663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ad-hoc Video Search (AVS) involves using a textual query to search for multiple relevant videos in a large collection of unlabeled short videos. The main challenge of AVS is the visual diversity of relevant videos. A simple query such as "Find shots of a man and a woman dancing together indoors" can span a multitude of environments, from brightly lit halls and shadowy bars to dance scenes in black-and-white animations. It is therefore essential to retrieve relevant videos as comprehensively as possible. Current solutions for the AVS task primarily fuse multiple features into one or more common spaces, yet overlook the need for diverse spaces. To fully exploit the expressive capability of individual features, we propose LPD, short for Learning Partially Decorrelated common spaces. LPD incorporates two key innovations: feature-specific common space construction and the de-correlation loss. Specifically, LPD learns a separate common space for each video and text feature, and employs de-correlation loss to diversify the ordering of negative samples across different spaces. To enhance the consistency of multi-space convergence, we designed an entropy-based fair multi-space triplet ranking loss. Extensive experiments on the TRECVID AVS benchmarks (2016-2023) justify the effectiveness of LPD. Moreover, diversity visualizations of LPD's spaces highlight its ability to enhance result diversity.
- Abstract(参考訳): アドホックビデオ検索(AVS)では、テキストクエリを使用して、ラベルなしの短いビデオの大規模なコレクション内の複数の関連動画を検索する。
AVSの主な課題は、関連ビデオの視覚的多様性である。
屋内で一緒に踊る男女のファイドショット」のような単純なクエリは、明るく照らされたホールやシャドウのバーから、白黒のアニメーションで踊るシーンまで、様々な環境にまたがることができる。
そのため、関連動画を可能な限り包括的に検索することが不可欠である。
AVSタスクの現在のソリューションは、主に複数の機能を1つ以上の共通スペースに融合するが、多様なスペースの必要性を見落としている。
個々の特徴の表現能力を最大限に活用するために,部分的決定関連共通空間を学習するためのLPDを提案する。
LPDは特徴特異的な共通空間構築と非相関損失という2つの重要な革新を取り入れている。
具体的には、LPDはビデオとテキストの特徴ごとに共通の空間を学習し、デコリレーション損失を用いて異なる空間にまたがる負のサンプルの順序を多様化する。
マルチ空間収束の整合性を高めるために,エントロピーに基づくフェアなマルチ空間3重項ランキング損失を設計した。
TRECVID AVSベンチマーク(2016-2023)の大規模な実験は、PDの有効性を正当化している。
さらに、PD空間の多様性の可視化は、結果の多様性を高める能力を強調している。
関連論文リスト
- CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models [12.150101028377565]
視覚言語モデル(VLM)の連続空間知覚能力を評価するためのベンチマークであるCoSpaceを提案する。
結果から,プロプライエタリなモデルを含むほとんどの評価モデルに対して,連続空間知覚能力に落とし穴があることが判明した。
論文 参考訳(メタデータ) (2025-03-18T11:31:58Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Towards Emotion Analysis in Short-form Videos: A Large-Scale Dataset and Baseline [6.676841280436392]
ショートフォームビデオ(SV)が普及すると、SVに対してビデオ感情分析(VEA)を行う必要がある。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いた音声-視覚ベースラインAV-CANetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。