論文の概要: Interactive Tracking: A Human-in-the-Loop Paradigm with Memory-Augmented Adaptation
- arxiv url: http://arxiv.org/abs/2604.01974v1
- Date: Thu, 02 Apr 2026 12:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.784266
- Title: Interactive Tracking: A Human-in-the-Loop Paradigm with Memory-Augmented Adaptation
- Title(参考訳): 対話的追跡: メモリ拡張型適応型ヒューマン・イン・ループ・パラダイム
- Authors: Yuqing Huang, Guotian Zeng, Zhenqiao Yuan, Zhenyu He, Xin Li, Yaowei Wang, Ming-Hsuan Yang,
- Abstract要約: 自然言語コマンドを使用していつでもトラッカーをガイドできる新しいパラダイムであるInteractive Trackingを導入する。
対話型トラッキングのための最初の大規模ベンチマークであるInteractTrackについて紹介する。
第3に,ユーザからのフィードバックから学習し,トラッキング動作を更新するために動的メモリ機構を利用する新しいベースラインであるInteractive Memory-Augmented Tracking (IMAT)を導入する。
- 参考スコア(独自算出の注目度): 60.96010213186819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual trackers mainly operate in a non-interactive, fire-and-forget manner, making them impractical for real-world scenarios that require human-in-the-loop adaptation. To overcome this limitation, we introduce Interactive Tracking, a new paradigm that allows users to guide the tracker at any time using natural language commands. To support research in this direction, we make three main contributions. First, we present InteractTrack, the first large-scale benchmark for interactive tracking, containing 150 videos with dense bounding box annotations and timestamped language instructions. Second, we propose a comprehensive evaluation protocol and evaluate 25 representative trackers, showing that state-of-the-art methods fail in interactive scenarios; strong performance on conventional benchmarks does not transfer. Third, we introduce Interactive Memory-Augmented Tracking (IMAT), a new baseline that employs a dynamic memory mechanism to learn from user feedback and update tracking behavior accordingly. Our benchmark, protocol, and baseline establish a foundation for developing more intelligent, adaptive, and collaborative tracking systems, bridging the gap between automated perception and human guidance. The full benchmark, tracking results, and analysis are available at https://github.com/NorahGreen/InteractTrack.git.
- Abstract(参考訳): 既存のビジュアルトラッカーは、主に非対話的で、火と忘れの方法で動作し、人間のループへの適応を必要とする現実のシナリオでは実用的ではない。
この制限を克服するために、ユーザーが自然言語コマンドを使用していつでもトラッカーをガイドできる新しいパラダイムであるInteractive Trackingを導入する。
この方向の研究を支援するために、我々は3つの主な貢献をしている。
まず、対話型トラッキングのための最初の大規模ベンチマークであるInteractTrackを紹介し、150のビデオに密接なバウンディングボックスアノテーションとタイムスタンプ付き言語命令を含む。
第2に,25個の代表トラッカーを総合的に評価し,対話的なシナリオにおいて最先端の手法が失敗することを示す。
第3に,ユーザからのフィードバックから学習し,トラッキング動作を更新するために動的メモリ機構を利用する新しいベースラインであるInteractive Memory-Augmented Tracking (IMAT)を導入する。
我々のベンチマーク、プロトコル、ベースラインは、よりインテリジェントで適応的で協調的なトラッキングシステムを開発する基盤を確立し、自動認識と人間のガイダンスのギャップを埋める。
完全なベンチマーク、追跡結果、分析はhttps://github.com/NorahGreen/InteractTrack.gitで公開されている。
関連論文リスト
- GenTrack: A New Generation of Multi-Object Tracking [3.259045978275386]
本稿では,GenTrackと呼ばれる新しいマルチオブジェクトトラッキング手法を提案する。
フレキシブルかつ決定論的な追跡手法を使用して、未知数と時間変化のターゲットを堅牢に処理する。
GenTrackは、最先端トラッカーと比較して、標準的なベンチマークと実世界のシナリオで優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-10-28T13:13:20Z) - RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving [7.620469713146574]
本稿では,新しい並列検出,追跡,予測手法であるニューラルベイズ動作復号法を提案する。
対話型セマンティックデコーディングを用いて、セマンティックタスクにおける情報交換を強化し、肯定的な伝達を促進する。
UniADとSparseDriveによるnuScenesデータセットの実験により、分割とマージのアプローチの有効性が確認された。
論文 参考訳(メタデータ) (2025-02-11T15:21:31Z) - SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
重み付きクロスアテンションに基づくデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案する。
また、追跡クエリに対する自己中心的な注意の障壁を突破するために、インスタンス対応のContrastive Learningを導入します。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。