論文の概要: SCANet: Scene Complexity Aware Network for Weakly-Supervised Video
Moment Retrieval
- arxiv url: http://arxiv.org/abs/2310.05241v1
- Date: Sun, 8 Oct 2023 17:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 09:01:27.341754
- Title: SCANet: Scene Complexity Aware Network for Weakly-Supervised Video
Moment Retrieval
- Title(参考訳): scanet:弱教師付きビデオモーメント検索のためのシーン複雑性対応ネットワーク
- Authors: Sunjae Yoon, Gwanhyeong Koo, Dahyun Kim, Chang D. Yoo
- Abstract要約: ビデオモーメント検索は、与えられた言語クエリに対応するビデオ内のモーメントをローカライズすることを目的としている。
本稿では,Scene Aware Network(SCANet)と呼ばれる検索システムについて紹介する。
SCANetは、各ビデオ内の複数のシーンのシーン複雑性を計測し、各ビデオ内のシーンの様々な複雑さに対応する適応的な提案を生成する。
- 参考スコア(独自算出の注目度): 27.68871220534595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval aims to localize moments in video corresponding to a
given language query. To avoid the expensive cost of annotating the temporal
moments, weakly-supervised VMR (wsVMR) systems have been studied. For such
systems, generating a number of proposals as moment candidates and then
selecting the most appropriate proposal has been a popular approach. These
proposals are assumed to contain many distinguishable scenes in a video as
candidates. However, existing proposals of wsVMR systems do not respect the
varying numbers of scenes in each video, where the proposals are heuristically
determined irrespective of the video. We argue that the retrieval system should
be able to counter the complexities caused by varying numbers of scenes in each
video. To this end, we present a novel concept of a retrieval system referred
to as Scene Complexity Aware Network (SCANet), which measures the `scene
complexity' of multiple scenes in each video and generates adaptive proposals
responding to variable complexities of scenes in each video. Experimental
results on three retrieval benchmarks (i.e., Charades-STA, ActivityNet, TVR)
achieve state-of-the-art performances and demonstrate the effectiveness of
incorporating the scene complexity.
- Abstract(参考訳): video moment searchは、与えられた言語クエリに対応するビデオ内のモーメントをローカライズすることを目的としている。
時間的モーメントをアノテートするコストを回避するため、弱い教師付きVMR(wsVMR)システムが研究されている。
このようなシステムでは、モーメント候補として多数の提案を生成し、最も適切な提案を選択することが一般的なアプローチである。
これらの提案には、ビデオに多くの区別可能なシーンが候補として含まれていると仮定される。
しかし、既存のwsVMRシステムの提案では、各ビデオのシーン数が異なるため、ビデオに関係なくヒューリスティックに決定される。
検索システムは,各映像のシーン数によって生じる複雑さに対処できるべきだ,と我々は主張する。
そこで本研究では,各映像中の複数のシーンの「シーン複雑性」を計測し,各映像中のシーンの様々な複雑さに対応する適応的提案を生成する,Scene Complexity Aware Network (SCANet) と呼ばれる検索システムを提案する。
3つの検索ベンチマーク(charades-sta, activitynet, tvr)の実験結果が最先端のパフォーマンスを達成し, シーンの複雑さを取り入れる効果を実証した。
関連論文リスト
- A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。
SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。
TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-09T08:54:19Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。