Fugu-MT 論文翻訳(概要): Staged Depthwise Correlation and Feature Fusion for Siamese Object Tracking

論文の概要: Staged Depthwise Correlation and Feature Fusion for Siamese Object Tracking

arxiv url: http://arxiv.org/abs/2310.09747v1
Date: Sun, 15 Oct 2023 06:04:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 18:30:08.101282
Title: Staged Depthwise Correlation and Feature Fusion for Siamese Object Tracking
Title（参考訳）: シームズ物体追跡のための段階的深度相関と特徴融合
Authors: Dianbo Ma, Jianqiang Xiao, Ziyan Gao, Satoshi Yamane
Abstract要約: 視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNet という新たな段階的深度相関と特徴融合ネットワークを提案する。シアムネットワークアーキテクチャに基づいてディープトラッカーを構築しており、複数の大規模データセットでゼロからトレーニングされたオフラインです。 OTB100,VOT2018,LaSOTなど,一般的なベンチマークにトラッカーを実装した。
参考スコア（独自算出の注目度）: 0.6827423171182154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose a novel staged depthwise correlation and feature fusion network, named DCFFNet, to further optimize the feature extraction for visual tracking. We build our deep tracker upon a siamese network architecture, which is offline trained from scratch on multiple large-scale datasets in an end-to-end manner. The model contains a core component, that is, depthwise correlation and feature fusion module (correlation-fusion module), which facilitates model to learn a set of optimal weights for a specific object by utilizing ensembles of multi-level features from lower and higher layers and multi-channel semantics on the same layer. We combine the modified ResNet-50 with the proposed correlation-fusion layer to constitute the feature extractor of our model. In training process, we find the training of model become more stable, that benifits from the correlation-fusion module. For comprehensive evaluations of performance, we implement our tracker on the popular benchmarks, including OTB100, VOT2018 and LaSOT. Extensive experiment results demonstrate that our proposed method achieves favorably competitive performance against many leading trackers in terms of accuracy and precision, while satisfying the real-time requirements of applications.
Abstract（参考訳）: 本研究では,視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNetという新たな深度相関と特徴融合ネットワークを提案する。シアムネットワークアーキテクチャに基づいてディープトラッカーを構築し、複数の大規模データセットをエンドツーエンドでオフラインでトレーニングします。このモデルには、下層と上層からのマルチレベル特徴の集合と同一層上のマルチセマンティックセマンティクスを利用して、特定のオブジェクトに対する最適な重みの集合を学習しやすくするコアコンポーネント、すなわち、奥行き相関と特徴融合モジュール(相関融合モジュール)が含まれている。修正されたResNet-50と提案した相関融合層を組み合わせて,モデルの特徴抽出器を構成する。トレーニングの過程では,モデルのトレーニングがより安定になり,相関融合モジュールから恩恵を受ける。パフォーマンスの包括的な評価のために、otb100、vot2018、lasotなど、人気のあるベンチマークでトラッカを実装します。広範な実験結果から,提案手法は,アプリケーションのリアルタイム要求を満足しながら,精度と精度の面で多くの先行トラッカに対して有利な競合性能を達成できることが示された。

関連論文リスト

TokaMind: A Multi-Modal Transformer Foundation Model for Tokamak Plasma Dynamics [56.073642366268764]
TokaMindは、核融合プラズマモデリングのためのオープンソースの基礎モデルフレームワークである。公開されているMASTデータセットから、異種トカマク診断をトレーニングする。我々は最近発表されたMASTベンチマークのTokaMarkでTokaMindを評価した。
論文参考訳（メタデータ） (2026-02-16T12:26:07Z)
FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM [50.9765003472032]
FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
論文参考訳（メタデータ） (2025-12-31T17:57:45Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文参考訳（メタデータ） (2024-02-03T22:51:17Z)
SENetV2: Aggregated dense layer for channelwise and global representations [0.0]
我々は,Squeeze残余モジュール内に,多分岐密度層である新しい多層パーセプトロンを導入する。この融合により、チャネルワイドパターンを捕捉し、グローバルな知識を持つネットワークの能力が向上する。ベンチマークデータセットの広範な実験を行い、モデルを検証し、確立したアーキテクチャと比較する。
論文参考訳（メタデータ） (2023-11-17T14:10:57Z)
RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文参考訳（メタデータ） (2023-10-18T07:30:08Z)
R-Cut: Enhancing Explainability in Vision Transformers with Relationship Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。 Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-07-18T08:03:51Z)
OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文参考訳（メタデータ） (2022-10-16T12:31:59Z)
DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-27T05:03:56Z)
Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。 OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文参考訳（メタデータ） (2022-03-22T18:37:11Z)
Semantic Segmentation With Multi Scale Spatial Attention For Self Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文参考訳（メタデータ） (2020-06-30T20:19:09Z)
A Unified Object Motion and Affinity Model for Online Multi-Object Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。 UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文参考訳（メタデータ） (2020-03-25T09:36:43Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。