論文の概要: Rethinking Global Context in Crowd Counting
- arxiv url: http://arxiv.org/abs/2105.10926v2
- Date: Sat, 25 Nov 2023 18:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 18:15:38.453747
- Title: Rethinking Global Context in Crowd Counting
- Title(参考訳): 集団カウントにおけるグローバルコンテキストの再考
- Authors: Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic,
Luc Van Gool
- Abstract要約: 純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
- 参考スコア(独自算出の注目度): 70.54184500538338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the role of global context for crowd counting.
Specifically, a pure transformer is used to extract features with global
information from overlapping image patches. Inspired by classification, we add
a context token to the input sequence, to facilitate information exchange with
tokens corresponding to image patches throughout transformer layers. Due to the
fact that transformers do not explicitly model the tried-and-true channel-wise
interactions, we propose a token-attention module (TAM) to recalibrate encoded
features through channel-wise attention informed by the context token. Beyond
that, it is adopted to predict the total person count of the image through
regression-token module (RTM). Extensive experiments on various datasets,
including ShanghaiTech, UCF-QNRF, JHU-CROWD++ and NWPU, demonstrate that the
proposed context extraction techniques can significantly improve the
performance over the baselines.
- Abstract(参考訳): 本稿では,群衆数におけるグローバルコンテキストの役割について検討する。
具体的には、重なり合う画像パッチからグローバル情報で特徴を抽出するために純粋変換器を用いる。
分類により、入力シーケンスにコンテキストトークンを追加し、トランスフォーマー層全体にわたる画像パッチに対応するトークンとの情報交換を容易にする。
トランスフォーマーは、試行錯誤のチャネルワイドインタラクションを明示的にモデル化していないため、コンテクストトークンによって通知されるチャネルワイドアテンションを通じて符号化された特徴を再検討するトークンアテンションモジュール(TAM)を提案する。
さらに、回帰分岐モジュール(rtm)によって画像の総人物数を予測するために採用されている。
hanghaiTech、UCF-QNRF、JHU-CROWD++、NWPUなど、さまざまなデータセットに対する大規模な実験により、提案したコンテキスト抽出技術がベースラインよりも性能を大幅に向上することを示した。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer [29.95553680263075]
本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。
FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-10-20T15:54:18Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution
Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。
トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。
このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。
本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文 参考訳(メタデータ) (2023-05-07T09:57:29Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - CPTR: Full Transformer Network for Image Captioning [15.869556479220984]
CaPtion TransformeR(CPTR)は、シーケンシャル化された生画像をTransformerへの入力として取り込む。
cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化することができる。
論文 参考訳(メタデータ) (2021-01-26T14:29:52Z) - Improving Image Captioning by Leveraging Intra- and Inter-layer Global
Representation in Transformer Network [96.4761273757796]
我々は、より包括的なグローバル表現の抽出を可能にするGlobal Enhanced Transformer (termed GET)を導入する。
getはデコーダに適応して高品質なキャプションを生成する。
論文 参考訳(メタデータ) (2020-12-13T13:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。