論文の概要: Search Multilayer Perceptron-Based Fusion for Efficient and Accurate Siamese Tracking
- arxiv url: http://arxiv.org/abs/2603.01706v1
- Date: Mon, 02 Mar 2026 10:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.817718
- Title: Search Multilayer Perceptron-Based Fusion for Efficient and Accurate Siamese Tracking
- Title(参考訳): パーセプトロンをベースとした高速かつ高精度なシームズ追跡のための探索多層核融合
- Authors: Tianqi Shen, Huakao Lin, Ning An,
- Abstract要約: MLP(Multilayer Perception)ベースの融合モジュールは、最小構造オーバーヘッドでピクセルレベルの相互作用を可能にする。
異なるニューラルネットワークサーチ(DNAS)により、チャネル幅最適化と他のアーキテクチャ選択を分離する。
トラッカーは4つの汎用と3つの空中ベンチマークでトップパフォーマーにランクインする。
- 参考スコア(独自算出の注目度): 3.7727834708902868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Siamese visual trackers have recently advanced through increasingly sophisticated fusion mechanisms built on convolutional or Transformer architectures. However, both struggle to deliver pixel-level interactions efficiently on resource-constrained hardware, leading to a persistent accuracy-efficiency imbalance. Motivated by this limitation, we redesign the Siamese neck with a simple yet effective Multilayer Perception (MLP)-based fusion module that enables pixel-level interaction with minimal structural overhead. Nevertheless, naively stacking MLP blocks introduces a new challenge: computational cost can scale quadratically with channel width. To overcome this, we construct a hierarchical search space of carefully designed MLP modules and introduce a customized relaxation strategy that enables differentiable neural architecture search (DNAS) to decouple channel-width optimization from other architectural choices. This targeted decoupling automatically balances channel width and depth, yielding a low-complexity architecture. The resulting tracker achieves state-of-the-art accuracy-efficiency trade-offs. It ranks among the top performers on four general-purpose and three aerial tracking benchmarks, while maintaining real-time performance on both resource-constrained Graphics Processing Units (GPUs) and Neural Processing Units (NPUs).
- Abstract(参考訳): シームズ・ビジュアル・トラッカーは近年、畳み込みやトランスフォーマーアーキテクチャ上に構築された高度な融合機構によって進歩している。
しかし、どちらもリソース制約のあるハードウェア上でピクセルレベルのインタラクションを効率的に提供するのに苦労し、精度と効率のバランスが持続する。
この制限により、我々は、最小構造オーバーヘッドでピクセルレベルの相互作用を可能にするシンプルなMLP(Multilayer Perception)ベースの融合モジュールで、シームズネックを再設計した。
計算コストはチャネル幅で2次的にスケールすることができる。
これを解決するために、慎重に設計されたMLPモジュールの階層的な検索空間を構築し、異なるニューラルネットワーク探索(DNAS)により、他のアーキテクチャ選択とチャンネル幅最適化の分離を可能にする、カスタマイズされた緩和戦略を導入する。
このターゲットデカップリングは、チャネル幅と深さを自動的にバランスさせ、低複雑さのアーキテクチャをもたらす。
得られたトラッカーは、最先端の精度効率トレードオフを達成する。
リソース制約付きグラフィックス処理ユニット(GPU)とニューラル処理ユニット(NPU)の両方でリアルタイムのパフォーマンスを維持しながら、4つの汎用と3つの空中追跡ベンチマークでトップパフォーマーにランクインしている。
関連論文リスト
- MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation [92.57609195819647]
MuSASplatは、ポーズなしフィードフォワード3Dガウスモデルの計算負担を劇的に削減する新しいフレームワークである。
我々のアプローチの中心は、ほんのわずかなトレーニングパラメータだけで、ViTベースのアーキテクチャを効率的に微調整できる軽量なマルチスケールアダプタである。
論文 参考訳(メタデータ) (2025-12-08T04:56:46Z) - Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。
提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。
ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文 参考訳(メタデータ) (2025-11-24T21:28:55Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - Exploring Non-Local Spatial-Angular Correlations with a Hybrid Mamba-Transformer Framework for Light Field Super-Resolution [68.54692184478462]
マンバ法は光画像超解像の計算コストと性能を最適化する大きな可能性を示している。
本稿では,より効率的かつ正確な特徴抽出を実現するために,Subspace Simple Mamba Block (SSMB) を設計したSubspace Simple Scanning (Sub-SS) 戦略を提案する。
また,空間角・異質情報の保存における状態空間の制限に対処する二段階モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T05:50:38Z) - MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection [4.757840725810513]
YOLOシリーズモデルは、速度と精度のバランスをとることで、強力なベンチマークを設定している。
トランスフォーマーは自己アテンション機構のため、計算の複雑さが高い。
精度と効率のバランスをとる新しいオブジェクト検出フレームワークであるMambaNeXt-YOLOを提案する。
論文 参考訳(メタデータ) (2025-06-04T07:46:24Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - MAXIM: Multi-Axis MLP for Image Processing [19.192826213493838]
本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-01-09T09:59:32Z) - AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation [96.29533512606078]
本稿では,新しいニューラルアーキテクチャサーチ(NAS)フレームワークであるAutoPoseを紹介する。
高精度で高解像度な2次元ポーズ推定に向けて、クロススケール接続の複数の並列ブランチを自動的に検出することができる。
論文 参考訳(メタデータ) (2020-08-16T22:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。