論文の概要: TGBFormer: Transformer-GraphFormer Blender Network for Video Object Detection
- arxiv url: http://arxiv.org/abs/2503.13903v1
- Date: Tue, 18 Mar 2025 05:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:43.826880
- Title: TGBFormer: Transformer-GraphFormer Blender Network for Video Object Detection
- Title(参考訳): TGBFormer:ビデオオブジェクト検出のための Transformer-GraphFormer Blender Network
- Authors: Qiang Qi, Xiao Wang,
- Abstract要約: 本稿では,ビデオオブジェクト検出のためのTransformer-GraphFormer Blender Network (TGBFormer)を提案する。
まず,グローバルな文脈情報を集約する時空間変換モジュールを開発する。
第2に,局所的空間的および時間的関係を利用して特徴を集約する空間時空間グラフフォーマーモジュールを提案する。
第3に、トランスフォーマーベースのグローバル表現とGraphFormerベースのローカル表現を適応的に結合するグローバルローカル機能ブレンダーモジュールを設計する。
- 参考スコア(独自算出の注目度): 10.69410997096889
- License:
- Abstract: Video object detection has made significant progress in recent years thanks to convolutional neural networks (CNNs) and vision transformers (ViTs). Typically, CNNs excel at capturing local features but struggle to model global representations. Conversely, ViTs are adept at capturing long-range global features but face challenges in representing local feature details. Off-the-shelf video object detection methods solely rely on CNNs or ViTs to conduct feature aggregation, which hampers their capability to simultaneously leverage global and local information, thereby resulting in limited detection performance. In this paper, we propose a Transformer-GraphFormer Blender Network (TGBFormer) for video object detection, with three key technical improvements to fully exploit the advantages of transformers and graph convolutional networks while compensating for their limitations. First, we develop a spatial-temporal transformer module to aggregate global contextual information, constituting global representations with long-range feature dependencies. Second, we introduce a spatial-temporal GraphFormer module that utilizes local spatial and temporal relationships to aggregate features, generating new local representations that are complementary to the transformer outputs. Third, we design a global-local feature blender module to adaptively couple transformer-based global representations and GraphFormer-based local representations. Extensive experiments demonstrate that our TGBFormer establishes new state-of-the-art results on the ImageNet VID dataset. Particularly, our TGBFormer achieves 86.5% mAP while running at around 41.0 FPS on a single Tesla A100 GPU.
- Abstract(参考訳): ビデオオブジェクト検出は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のおかげで、近年大きく進歩している。
通常、CNNは局所的な特徴を捉えるのに優れるが、グローバルな表現をモデル化するのに苦労する。
逆にViTは、長距離のグローバルな機能のキャプチャには適しているが、ローカルな機能詳細を表現する上での課題に直面している。
オフザシェルフビデオオブジェクト検出方法は、CNNやViTにのみ依存して特徴集約を行い、グローバルおよびローカル情報を同時に活用する能力を損なうため、検出性能が制限される。
本稿では,ビデオオブジェクト検出のためのTransformer-GraphFormer Blender Network(TGBFormer)を提案する。
まず,グローバルなコンテクスト情報を集約する時空間トランスフォーマーモジュールを開発し,長距離特徴量を持つグローバルな表現を構成する。
第2に、局所的空間的および時間的関係を利用して特徴を集約し、変換器出力を補完する新しい局所表現を生成する空間的時間的グラフフォーマーモジュールを導入する。
第3に、トランスフォーマーベースのグローバル表現とGraphFormerベースのローカル表現を適応的に結合するグローバルローカル機能ブレンダーモジュールを設計する。
大規模な実験により、われわれのTGBFormerはImageNet VIDデータセット上で新しい最先端の結果を確立した。
特に、我々のTGBFormerは、単一のTesla A100 GPU上で約41.0 FPSで動作する間、86.5%のmAPを達成する。
関連論文リスト
- A Novel Shape Guided Transformer Network for Instance Segmentation in Remote Sensing Images [4.14360329494344]
本稿では,SGTN(Shape Guided Transformer Network)を提案する。
自己アテンション機構のグローバルなコンテキストモデリング能力に着想を得て,LSwinと呼ばれる効率的なトランスフォーマーエンコーダを提案する。
我々のSGTNは、2つの単一クラス公開データセット上での最高平均精度(AP)スコアを達成する。
論文 参考訳(メタデータ) (2024-12-31T09:25:41Z) - Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds [94.21415132135951]
複数のフレームにおける時間情報を利用して3次元物体を検出することを提案する。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-26T05:16:28Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。