論文の概要: Language-Driven Interactive Shadow Detection
- arxiv url: http://arxiv.org/abs/2408.08543v1
- Date: Fri, 16 Aug 2024 05:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 16:39:36.890448
- Title: Language-Driven Interactive Shadow Detection
- Title(参考訳): 言語駆動型対話型シャドウ検出
- Authors: Hongqiu Wang, Wei Wang, Haipeng Zhou, Huihui Xu, Shaozhi Wu, Lei Zhu,
- Abstract要約: Referring Video Shadow Detection (RVSD)は、記述的な自然言語プロンプトに基づくビデオ内の特定のシャドウのセグメンテーションを容易にすることで、古典的なパラダイムを復活させる革新的なタスクである。
本稿では、RVSDタスクに対処するための参照シャドウ・トラック・メモリ・ネットワーク(RSM-Net)を提案する。
RSM-Net は RVSD の最先端性能を達成し, IOU は4.4% 向上した。
- 参考スコア(独自算出の注目度): 10.567929605530393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional shadow detectors often identify all shadow regions of static images or video sequences. This work presents the Referring Video Shadow Detection (RVSD), which is an innovative task that rejuvenates the classic paradigm by facilitating the segmentation of particular shadows in videos based on descriptive natural language prompts. This novel RVSD not only achieves segmentation of arbitrary shadow areas of interest based on descriptions (flexibility) but also allows users to interact with visual content more directly and naturally by using natural language prompts (interactivity), paving the way for abundant applications ranging from advanced video editing to virtual reality experiences. To pioneer the RVSD research, we curated a well-annotated RVSD dataset, which encompasses 86 videos and a rich set of 15,011 paired textual descriptions with corresponding shadows. To the best of our knowledge, this dataset is the first one for addressing RVSD. Based on this dataset, we propose a Referring Shadow-Track Memory Network (RSM-Net) for addressing the RVSD task. In our RSM-Net, we devise a Twin-Track Synergistic Memory (TSM) to store intra-clip memory features and hierarchical inter-clip memory features, and then pass these memory features into a memory read module to refine features of the current video frame for referring shadow detection. We also develop a Mixed-Prior Shadow Attention (MSA) to utilize physical priors to obtain a coarse shadow map for learning more visual features by weighting it with the input video frame. Experimental results show that our RSM-Net achieves state-of-the-art performance for RVSD with a notable Overall IOU increase of 4.4\%. Our code and dataset are available at https://github.com/whq-xxh/RVSD.
- Abstract(参考訳): 従来のシャドウ検出器は、静的画像やビデオシーケンスのすべてのシャドウ領域を識別することが多い。
本研究は,記述型自然言語プロンプトに基づくビデオにおける特定のシャドウのセグメンテーションを容易にすることで,従来のパラダイムを再定義する革新的なタスクであるReferring Video Shadow Detection (RVSD)を紹介する。
この斬新なRVSDは、記述(フレキシビリティ)に基づいて、任意のシャドウ領域のセグメンテーションを達成できるだけでなく、自然言語プロンプト(対話性)を用いて視覚的コンテンツをより直接的かつ自然に操作し、高度なビデオ編集からバーチャルリアリティ体験まで、豊富なアプリケーションへの道を開くことができる。
RVSD研究のパイオニアとして,86本のビデオと15,011対のテキスト記述と対応するシャドウのリッチなセットを含む,よく注釈付きRVSDデータセットをキュレートした。
私たちの知る限りでは、このデータセットはRVSDに対処する最初のデータセットです。
このデータセットに基づいて、RVSDタスクに対処するための参照シャドウ・トラック・メモリ・ネットワーク(RSM-Net)を提案する。
RSM-Netでは、TSM(Twin-Track Synergistic Memory)を考案し、メモリ内機能と階層間メモリ機能を記憶し、これらのメモリ機能をメモリリードモジュールに渡すことで、現在のビデオフレームの特徴を洗練し、シャドウ検出を参照する。
また,映像フレームの重み付けにより,より視覚的な特徴を学習するための粗い影マップを得るために,物理的な先行情報を活用するための混合パラメータ陰影注意(MSA)も開発した。
RSM-Net は RVSD の最先端性能を達成し, IOU は 4.4 % 向上した。
私たちのコードとデータセットはhttps://github.com/whq-xxh/RVSD.comで公開されています。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Triple-cooperative Video Shadow Detection [43.030759888063194]
60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
論文 参考訳(メタデータ) (2021-03-11T08:54:19Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z) - Temporal Complementary Learning for Video Person Re-Identification [110.43147302200101]
本稿では,連続する映像フレームの相補的特徴を抽出し,映像人物の再同定を行う時間補完学習ネットワークを提案する。
サリエンシ消去操作により、特定の学習者は、前のフレームによって活性化された部分を消去することにより、新規かつ補完的な部分をマイニングする。
テンポラル・サリエンシ・ブースティング(TSB)モジュールは、ビデオフレーム間のサリエント情報を伝播してサリエント機能を強化するように設計されている。
論文 参考訳(メタデータ) (2020-07-18T07:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。