論文の概要: FASTer: Focal Token Acquiring-and-Scaling Transformer for Long-term 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.01899v1
- Date: Fri, 28 Feb 2025 03:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:07.582652
- Title: FASTer: Focal Token Acquiring-and-Scaling Transformer for Long-term 3D Object Detection
- Title(参考訳): FASTer:長期3次元物体検出のための音声トークン取得・スケーリング変換器
- Authors: Chenxu Dang, Zaipeng Duan, Pei An, Xinmin Zhang, Xuzhong Hu, Jie Ma,
- Abstract要約: 我々はFAST(Focal Token Acquring-and-Scaling Transformer)を提案する。
FASTerは、適応的で軽量な方法でトークンシーケンスを凝縮する。
性能と効率の両方で、他の最先端の検出器よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 9.291995455336929
- License:
- Abstract: Recent top-performing temporal 3D detectors based on Lidars have increasingly adopted region-based paradigms. They first generate coarse proposals, followed by encoding and fusing regional features. However, indiscriminate sampling and fusion often overlook the varying contributions of individual points and lead to exponentially increased complexity as the number of input frames grows. Moreover, arbitrary result-level concatenation limits the global information extraction. In this paper, we propose a Focal Token Acquring-and-Scaling Transformer (FASTer), which dynamically selects focal tokens and condenses token sequences in an adaptive and lightweight manner. Emphasizing the contribution of individual tokens, we propose a simple but effective Adaptive Scaling mechanism to capture geometric contexts while sifting out focal points. Adaptively storing and processing only focal points in historical frames dramatically reduces the overall complexity. Furthermore, a novel Grouped Hierarchical Fusion strategy is proposed, progressively performing sequence scaling and Intra-Group Fusion operations to facilitate the exchange of global spatial and temporal information. Experiments on the Waymo Open Dataset demonstrate that our FASTer significantly outperforms other state-of-the-art detectors in both performance and efficiency while also exhibiting improved flexibility and robustness. The code is available at https://github.com/MSunDYY/FASTer.git.
- Abstract(参考訳): 近年、Lidarsに基づく時間的3D検出器は、地域ベースのパラダイムをますます採用している。
彼らはまず粗い提案を生成し、その後にエンコーディングと地域の特徴を融合させた。
しかし、無差別サンプリングと融合はしばしば個々の点の様々な寄与を見落とし、入力フレームの数が増えるにつれて指数関数的に複雑さが増大する。
さらに、任意の結果レベルの連結は、グローバル情報抽出を制限する。
本稿では,FAST(Focal Token Acquring-and-Scaling Transformer)を提案する。
個々のトークンの寄与を強調し、焦点を絞りながら幾何学的コンテキストを捉えるための、単純かつ効果的な適応スケーリング機構を提案する。
履歴フレーム内の焦点のみを適応的に保存し処理することで、全体的な複雑さを劇的に減らす。
さらに,グローバル空間情報と時間情報の交換を容易にするために,シーケンススケーリングとグループ内フュージョン操作を段階的に実施する,新たなグループ階層型フュージョン戦略を提案する。
Waymo Open Datasetの実験では、FASTerはパフォーマンスと効率の両方で他の最先端の検出器よりも大幅に優れており、柔軟性と堅牢性も向上しています。
コードはhttps://github.com/MSunDYY/FASTer.gitで公開されている。
関連論文リスト
- Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。