論文の概要: Appearance-Preserving 3D Convolution for Video-based Person
Re-identification
- arxiv url: http://arxiv.org/abs/2007.08434v2
- Date: Mon, 27 Jul 2020 10:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:34:25.310435
- Title: Appearance-Preserving 3D Convolution for Video-based Person
Re-identification
- Title(参考訳): 映像に基づく人物再識別のための外観保存型3次元畳み込み
- Authors: Xinqian Gu, Hong Chang, Bingpeng Ma, Hongkai Zhang, Xilin Chen
- Abstract要約: 本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
- 参考スコア(独自算出の注目度): 61.677153482995564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the imperfect person detection results and posture changes, temporal
appearance misalignment is unavoidable in video-based person re-identification
(ReID). In this case, 3D convolution may destroy the appearance representation
of person video clips, thus it is harmful to ReID. To address this problem, we
propose AppearancePreserving 3D Convolution (AP3D), which is composed of two
components: an Appearance-Preserving Module (APM) and a 3D convolution kernel.
With APM aligning the adjacent feature maps in pixel level, the following 3D
convolution can model temporal information on the premise of maintaining the
appearance representation quality. It is easy to combine AP3D with existing 3D
ConvNets by simply replacing the original 3D convolution kernels with AP3Ds.
Extensive experiments demonstrate the effectiveness of AP3D for video-based
ReID and the results on three widely used datasets surpass the
state-of-the-arts. Code is available at: https://github.com/guxinqian/AP3D.
- Abstract(参考訳): 不完全な人物検出結果と姿勢変化により、ビデオベースの人物再識別(ReID)では時間的外見の誤認は避けられない。
この場合、3次元畳み込みは人物のビデオクリップの外観表現を破壊する可能性があるため、reidには有害である。
そこで本研究では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネル (3D Convolution kernel) の2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
APMは隣接する特徴写像をピクセル単位で整列させることで、次の3次元畳み込みは、外観表現品質を維持するという前提で時間情報をモデル化することができる。
オリジナルの3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
ビデオベースReIDにおけるAP3Dの有効性と,3つの広く使用されているデータセットが最先端のデータセットを上回る結果を示した。
コードはhttps://github.com/guxinqian/ap3d。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - A Unified Framework for 3D Point Cloud Visual Grounding [60.75319271082741]
本稿では,3DREC と 3DRES を 3DRefTR という統合フレームワークに統合する取り組みについて述べる。
その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。
この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
論文 参考訳(メタデータ) (2023-08-23T03:20:31Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting [28.709044035867596]
本稿では,DFA3Dと呼ばれる2D-to-3D機能リフトのための新しい演算子を提案する。
DFA3Dは、多視点2D画像の特徴を3Dオブジェクト検出のための統一された3D空間に変換する。
論文 参考訳(メタデータ) (2023-07-24T17:49:11Z) - TR3D: Towards Real-Time Indoor 3D Object Detection [6.215404942415161]
TR3Dは、エンドツーエンドで訓練された完全畳み込み3Dオブジェクト検出モデルである。
ポイントクラウドとRGBの両方の入力を利用するため、我々は2Dと3Dの機能の早期融合を導入する。
TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。
論文 参考訳(メタデータ) (2023-02-06T15:25:50Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-11-22T09:20:49Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。