論文の概要: Co-segmentation Inspired Attention Module for Video-based Computer
Vision Tasks
- arxiv url: http://arxiv.org/abs/2111.07370v1
- Date: Sun, 14 Nov 2021 15:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 08:06:19.616170
- Title: Co-segmentation Inspired Attention Module for Video-based Computer
Vision Tasks
- Title(参考訳): ビデオベースコンピュータビジョンタスクのためのコセグメンテーションインスパイアされた注意モジュール
- Authors: Arulkumar Subramaniam, Jayesh Vaidya, Muhammed Abdul Majeed Ameen,
Athira Nambiar and Anurag Mittal
- Abstract要約: 本稿では,コセグメンテーション・モジュール・アクティベーション(COSAM)と呼ばれる汎用モジュールを提案する。
ビデオベースタスクにおけるCOSAMの適用例として,1)ビデオベースの人物再ID,2)ビデオキャプション,3)ビデオアクション分類の3つを挙げる。
- 参考スコア(独自算出の注目度): 11.61956970623165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision tasks can benefit from the estimation of the salient object
regions and interactions between those object regions. Identifying the object
regions involves utilizing pretrained models to perform object detection,
object segmentation and/or object pose estimation. However, it is infeasible in
practice due to the following reasons: 1) The object categories of pretrained
models' training dataset may not cover all the object categories exhaustively
needed for general computer vision tasks, 2) The domain gap between pretrained
models' training dataset and target task's dataset may differ and negatively
impact the performance, 3) The bias and variance present in pretrained models
may leak into target task leading to an inadvertently biased target model. To
overcome these downsides, we propose to utilize the common rationale that a
sequence of video frames capture a set of common objects and interactions
between them, thus a notion of co-segmentation between the video frame features
may equip the model with the ability to automatically focus on salient regions
and improve underlying task's performance in an end-to-end manner. In this
regard, we propose a generic module called "Co-Segmentation Activation Module"
(COSAM) that can be plugged-in to any CNN to promote the notion of
co-segmentation based attention among a sequence of video frame features. We
show the application of COSAM in three video based tasks namely 1) Video-based
person re-ID, 2) Video captioning, & 3) Video action classification and
demonstrate that COSAM is able to capture salient regions in the video frames,
thus leading to notable performance improvements along with interpretable
attention maps.
- Abstract(参考訳): コンピュータビジョンタスクは、突出したオブジェクト領域の推定と、それらのオブジェクト領域間のインタラクションの恩恵を受ける。
オブジェクト領域を特定するには、事前訓練されたモデルを使用してオブジェクト検出、オブジェクトセグメンテーション、および/またはオブジェクトポーズ推定を行う。
ただし、実際には以下の理由により実現不可能である。
1) 訓練済みモデルのトレーニングデータセットのオブジェクトカテゴリは、一般的なコンピュータビジョンタスクに必要なすべてのオブジェクトカテゴリを網羅するものではない。
2)訓練済みモデルのトレーニングデータセットと目標タスクのデータセットのドメインギャップは,性能に悪影響を及ぼす可能性がある。
3)事前訓練されたモデルに存在するバイアスとばらつきは、意図しないバイアスのあるターゲットモデルにつながるターゲットタスクに漏れる可能性がある。
これらの欠点を克服するために、映像フレームのシーケンスが共通のオブジェクトの集合をキャプチャし、それらの相互作用を相互に持つという共通の理論的根拠を生かして、映像フレーム特徴の共セグメンテーションの概念は、モデルにサリエント領域に自動的に焦点を合わせ、エンド・ツー・エンドでタスクの性能を向上させる能力を与える。
そこで本研究では,CNNにプラグイン可能なCOSAM(Co-Segmentation Activation Module)と呼ばれる汎用モジュールを提案する。
ビデオベースタスクである3つのタスクにおけるCOSAMの適用例を示す。
1)ビデオベースの人物再識別
2)ビデオキャプション,&3)ビデオアクションの分類と,cosamがビデオフレームの突出した領域をキャプチャできることの実証により,注意マップの解釈が容易になるとともに,注目すべきパフォーマンス向上が達成された。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。