論文の概要: An End-to-End Transformer Model for Crowd Localization
- arxiv url: http://arxiv.org/abs/2202.13065v1
- Date: Sat, 26 Feb 2022 05:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 11:46:50.718231
- Title: An End-to-End Transformer Model for Crowd Localization
- Title(参考訳): クラウドローカライズのためのエンド・ツー・エンド変圧器モデル
- Authors: Dingkang Liang, Wei Xu, Xiang Bai
- Abstract要約: 頭の位置を予測するクラウドローカライゼーションは、単にカウントするよりも実用的でハイレベルなタスクである。
既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。
本稿では,レグレッションベースパラダイムの課題を解決するエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。
- 参考スコア(独自算出の注目度): 64.15335535775883
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Crowd localization, predicting head positions, is a more practical and
high-level task than simply counting. Existing methods employ pseudo-bounding
boxes or pre-designed localization maps, relying on complex post-processing to
obtain the head positions. In this paper, we propose an elegant, end-to-end
Crowd Localization TRansformer named CLTR that solves the task in the
regression-based paradigm. The proposed method views the crowd localization as
a direct set prediction problem, taking extracted features and trainable
embeddings as input of the transformer-decoder. To achieve good matching
results, we introduce a KMO-based Hungarian, which innovatively revisits the
label assignment from a context view instead of an independent instance view.
Extensive experiments conducted on five datasets in various data settings show
the effectiveness of our method. In particular, the proposed method achieves
the best localization performance on the NWPU-Crowd, UCF-QNRF, and ShanghaiTech
Part A datasets.
- Abstract(参考訳): 頭の位置を予測するクラウドローカライゼーションは、単に数えるよりも実用的でハイレベルなタスクである。
既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。
本稿では,レグレッションベースパラダイムの課題を解決するために,CLTRと呼ばれるエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。
提案手法は,群衆の局所化を直接セット予測問題とみなし,抽出した特徴と学習可能な埋め込みを変換器デコーダの入力とする。
KMOベースのハンガリー語を導入し、独立インスタンスビューではなくコンテキストビューからラベルの割り当てを革新的に修正する。
各種データ設定における5つのデータセットに対する大規模な実験により,本手法の有効性が示された。
特に,提案手法は,NWPU-Crowd, UCF-QNRF, ShanghaiTech Part Aデータセット上での最適なローカライズ性能を実現する。
関連論文リスト
- Dual-Personalizing Adapter for Federated Foundation Models [35.863585349109385]
そこで我々は,テストタイムのパーソナライゼーション(test-time personalization)という新たな設定を提案し,対象とするローカルタスクに集中し,テストタイムの分散シフトを示すタスクに拡張する。
具体的には、グローバルアダプタとテスト時間分散シフトとパーソナライズに対処するローカルアダプタからなる、二重対人アダプタアーキテクチャ(FedDPA)を提案する。
提案手法の有効性を,異なるNLPタスクのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2024-03-28T08:19:33Z) - Accelerating Federated Learning by Selecting Beneficial Herd of Local Gradients [40.84399531998246]
Federated Learning (FL) は、通信ネットワークシステムにおける分散機械学習フレームワークである。
非独立分散(Non-IID)データは、大域モデルの収束効率に悪影響を及ぼす。
FLモデルの収束を加速するために,局所勾配の有利な群を選別するBHerd戦略を提案する。
論文 参考訳(メタデータ) (2024-03-25T09:16:59Z) - Learning Saliency From Fixations [0.9208007322096533]
本稿では, 画像の並列デコードを利用して, 修正マップからのみサリエンシを学習する, 画像中のサリエンシ予測のための新しいアプローチを提案する。
我々のアプローチは、Saliency TRansformer (SalTR) と呼ばれ、SaliconとMIT300ベンチマークの最先端のアプローチと同等のスコアを得る。
論文 参考訳(メタデータ) (2023-11-23T16:04:41Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。