論文の概要: RELO: Reinforcement Learning to Localize for Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2605.07379v1
- Date: Fri, 08 May 2026 07:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.890492
- Title: RELO: Reinforcement Learning to Localize for Visual Object Tracking
- Title(参考訳): RELO: ビジュアルオブジェクト追跡のためのローカライズのための強化学習
- Authors: Xin Chen, Chuanyu Sun, Jiao Xu, Houwen Peng, Dong Wang, Huchuan Lu, Kede Ma,
- Abstract要約: 視覚的物体追跡のためのReinforcement-learning-to-LOcalize法であるRELOを紹介する。
RELOは、手作りの空間先行を空間的位置から学習した局所化ポリシーに置き換える。
我々は、RELOがテンプレート更新なしでLaSOText上で57.5%のAUCを達成することを示す。
- 参考スコア(独自算出の注目度): 70.27265738642956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional visual object trackers localize targets using handcrafted spatial priors, often in the form of heatmaps. Such priors provide only surrogate supervision and are poorly aligned with tracking optimization and evaluation metrics, such as intersection over union (IoU) and area under the success curve (AUC). Here, we introduce RELO, a REinforcement-learning-to-LOcalize method for visual object tracking that formulates target localization as a Markov decision process. Specifically, RELO replaces handcrafted spatial priors with a localization policy learned over spatial positions via reinforcement learning, with rewards combining frame-level IoU and sequence-level AUC. We additionally introduce layer-aligned temporal token propagation to improve semantic consistency across frames, with negligible computational overhead. Across multiple benchmarks, RELO achieves superior results, attaining 57.5% AUC on LaSOText without template updates. This confirms that reward-driven localization provides an effective alternative to prior-driven localization for visual object tracking.
- Abstract(参考訳): 従来のビジュアルオブジェクトトラッカーは、しばしばヒートマップの形で、手作りの空間先行物を用いてターゲットをローカライズする。
このような事前は代理監督のみを提供しており、連合(IoU)の交差や成功曲線(AUC)の下の領域など、最適化と評価の指標の追跡には不十分である。
本稿では、マルコフ決定プロセスとして局所化を定式化する視覚オブジェクト追跡のための強化学習・ローカライズ手法であるRELOを紹介する。
具体的には、RELOは手作りの空間先行を、強化学習を通じて空間的位置から学習した局所化ポリシーに置き換え、フレームレベルのIoUとシーケンスレベルのAUCを組み合わせた報酬を与える。
さらに,フレーム間のセマンティックな整合性を改善するために,計算オーバーヘッドを無視するレイヤ整合型時間的トークン伝搬を導入する。
複数のベンチマークにおいて、RELOは優れた結果を出し、テンプレート更新なしでLaSOText上で57.5%のAUCを達成した。
これは、報酬駆動のローカライゼーションが、視覚的オブジェクト追跡の事前駆動のローカライゼーションに代わる効果的な代替手段であることを示す。
関連論文リスト
- IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [20.603433987118837]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration [20.322494442959762]
Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
論文 参考訳(メタデータ) (2022-07-21T12:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。