Fugu-MT 論文翻訳(概要): SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval

論文の概要: SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval

arxiv url: http://arxiv.org/abs/2310.05241v1
Date: Sun, 8 Oct 2023 17:19:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 09:01:27.341754
Title: SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval
Title（参考訳）: scanet:弱教師付きビデオモーメント検索のためのシーン複雑性対応ネットワーク
Authors: Sunjae Yoon, Gwanhyeong Koo, Dahyun Kim, Chang D. Yoo
Abstract要約: ビデオモーメント検索は、与えられた言語クエリに対応するビデオ内のモーメントをローカライズすることを目的としている。本稿では,Scene Aware Network(SCANet)と呼ばれる検索システムについて紹介する。 SCANetは、各ビデオ内の複数のシーンのシーン複雑性を計測し、各ビデオ内のシーンの様々な複雑さに対応する適応的な提案を生成する。
参考スコア（独自算出の注目度）: 27.68871220534595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video moment retrieval aims to localize moments in video corresponding to a given language query. To avoid the expensive cost of annotating the temporal moments, weakly-supervised VMR (wsVMR) systems have been studied. For such systems, generating a number of proposals as moment candidates and then selecting the most appropriate proposal has been a popular approach. These proposals are assumed to contain many distinguishable scenes in a video as candidates. However, existing proposals of wsVMR systems do not respect the varying numbers of scenes in each video, where the proposals are heuristically determined irrespective of the video. We argue that the retrieval system should be able to counter the complexities caused by varying numbers of scenes in each video. To this end, we present a novel concept of a retrieval system referred to as Scene Complexity Aware Network (SCANet), which measures the `scene complexity' of multiple scenes in each video and generates adaptive proposals responding to variable complexities of scenes in each video. Experimental results on three retrieval benchmarks (i.e., Charades-STA, ActivityNet, TVR) achieve state-of-the-art performances and demonstrate the effectiveness of incorporating the scene complexity.
Abstract（参考訳）: video moment searchは、与えられた言語クエリに対応するビデオ内のモーメントをローカライズすることを目的としている。時間的モーメントをアノテートするコストを回避するため、弱い教師付きVMR(wsVMR)システムが研究されている。このようなシステムでは、モーメント候補として多数の提案を生成し、最も適切な提案を選択することが一般的なアプローチである。これらの提案には、ビデオに多くの区別可能なシーンが候補として含まれていると仮定される。しかし、既存のwsVMRシステムの提案では、各ビデオのシーン数が異なるため、ビデオに関係なくヒューリスティックに決定される。検索システムは,各映像のシーン数によって生じる複雑さに対処できるべきだ,と我々は主張する。そこで本研究では,各映像中の複数のシーンの「シーン複雑性」を計測し,各映像中のシーンの様々な複雑さに対応する適応的提案を生成する,Scene Complexity Aware Network (SCANet) と呼ばれる検索システムを提案する。 3つの検索ベンチマーク(charades-sta, activitynet, tvr)の実験結果が最先端のパフォーマンスを達成し, シーンの複雑さを取り入れる効果を実証した。

関連論文リスト

A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。 SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。 TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2025-01-09T08:54:19Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Scene Summarization: Clustering Scene Videos into Spatially Diverse Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文参考訳（メタデータ） (2023-11-28T22:18:26Z)
CONQUER: Contextual Query-aware Ranking for Video Corpus Moment Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文参考訳（メタデータ） (2021-09-21T08:07:27Z)
DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文参考訳（メタデータ） (2021-05-13T17:33:26Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)
VLANet: Video-Language Alignment Network for Weakly-Supervised Video Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2020-08-24T07:54:59Z)
Complementary Boundary Generator with Scale-Invariant Relation Modeling for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-20T04:35:40Z)
A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文参考訳（メタデータ） (2020-04-06T13:58:08Z)
Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文参考訳（メタデータ） (2020-04-05T14:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。