論文の概要: Online Multi-modal Person Search in Videos
- arxiv url: http://arxiv.org/abs/2008.03546v1
- Date: Sat, 8 Aug 2020 15:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 09:13:55.735607
- Title: Online Multi-modal Person Search in Videos
- Title(参考訳): オンラインマルチモーダル動画検索
- Authors: Jiangyue Xia, Anyi Rao, Qingqiu Huang, Linning Xu, Jiangtao Wen, Dahua
Lin
- Abstract要約: 本研究では,映像中の人物をリアルタイムで認識するオンライン人物検索フレームワークを提案する。
大規模な映画データセットを用いた実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 74.75432003006432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of searching certain people in videos has seen increasing potential
in real-world applications, such as video organization and editing. Most
existing approaches are devised to work in an offline manner, where identities
can only be inferred after an entire video is examined. This working manner
precludes such methods from being applied to online services or those
applications that require real-time responses. In this paper, we propose an
online person search framework, which can recognize people in a video on the
fly. This framework maintains a multimodal memory bank at its heart as the
basis for person recognition, and updates it dynamically with a policy obtained
by reinforcement learning. Our experiments on a large movie dataset show that
the proposed method is effective, not only achieving remarkable improvements
over online schemes but also outperforming offline methods.
- Abstract(参考訳): ビデオ内の特定の人物を検索するタスクは、ビデオの整理や編集など、現実世界のアプリケーションでポテンシャルを増している。
既存のアプローチの多くはオフラインで動作するように考案されており、ビデオ全体を検査した後のみidを推測できる。
この作業方法は、オンラインサービスやリアルタイム応答を必要とするアプリケーションに適用されないようにする。
本稿では,動画中の人物をリアルタイムで認識できるオンライン人物検索フレームワークを提案する。
このフレームワークは、人物認識の基盤としてマルチモーダルメモリバンクを中心とし、強化学習によって得られたポリシーで動的に更新する。
大規模な映画データセットを用いた実験の結果,提案手法はオンライン手法よりも優れた改善を達成できるだけでなく,オフライン手法よりも優れていることがわかった。
関連論文リスト
- Ensemble Successor Representations for Task Generalization in Offline-to-Online Reinforcement Learning [8.251711947874238]
オフラインRLは、オフラインポリシーを提供することによって、有望なソリューションを提供する。
既存の手法では,オフラインからオンラインへの適応におけるタスク一般化問題を考慮せずに,オフラインとオンラインの学習を同一タスクで行う。
本研究は、オンラインRLにおけるタスク一般化のための後継表現の探索を基盤とし、オフライン-オンライン学習を組み込むためのフレームワークを拡張した。
論文 参考訳(メタデータ) (2024-05-12T08:52:52Z) - Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Towards A Multi-agent System for Online Hate Speech Detection [11.843799418046666]
本論文では,TwitterやFacebookなどのオンラインソーシャルメディアプラットフォームにおけるヘイトスピーチの存在を検出するマルチエージェントシステムを提案する。
テキスト処理とインエイジ処理のチャネルをコーディネートする深層学習技術を用いた新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2021-05-03T19:06:42Z) - Online Learnable Keyframe Extraction in Videos and its Application with
Semantic Word Vector in Action Recognition [5.849485167287474]
ビデオ中のキーショットを抽出するためのオンライン学習可能なモジュールを提案する。
このモジュールはビデオ内のキーショットを選択できるため、ビデオ要約にも適用できる。
また、セマンティックワードベクトルを入力として使用するプラグインモジュールと、分類モデルのための新しいトレイン/テスト戦略を提案する。
論文 参考訳(メタデータ) (2020-09-25T20:54:46Z) - WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos [124.72839555467944]
ビデオクラスラベルのみを用いてトレーニングできる弱教師付きフレームワークを提案する。
提案手法は, 弱教師付きベースラインよりも優れていることを示す。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の成果を得る。
論文 参考訳(メタデータ) (2020-06-05T23:08:41Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。