論文の概要: Siamese Tracking with Lingual Object Constraints
- arxiv url: http://arxiv.org/abs/2011.11721v1
- Date: Mon, 23 Nov 2020 20:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 02:38:29.433538
- Title: Siamese Tracking with Lingual Object Constraints
- Title(参考訳): 言語的対象制約によるシームズ追跡
- Authors: Maximilian Filtenborg, Efstratios Gavves, Deepak Gupta
- Abstract要約: 本稿では、追加の言語制約を受ける視覚オブジェクトの追跡について検討する。
Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。
本手法は,制約の妥当性に基づいて,動画の選択的圧縮を可能にする。
- 参考スコア(独自算出の注目度): 28.04334832366449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classically, visual object tracking involves following a target object
throughout a given video, and it provides us the motion trajectory of the
object. However, for many practical applications, this output is often
insufficient since additional semantic information is required to act on the
video material. Example applications of this are surveillance and
target-specific video summarization, where the target needs to be monitored
with respect to certain predefined constraints, e.g., 'when standing near a
yellow car'. This paper explores, tracking visual objects subjected to
additional lingual constraints. Differently from Li et al., we impose
additional lingual constraints upon tracking, which enables new applications of
tracking. Whereas in their work the goal is to improve and extend upon tracking
itself. To perform benchmarks and experiments, we contribute two datasets:
c-MOT16 and c-LaSOT, curated through appending additional constraints to the
frames of the original LaSOT and MOT16 datasets. We also experiment with two
deep models SiamCT-DFG and SiamCT-CA, obtained through extending a recent
state-of-the-art Siamese tracking method and adding modules inspired from the
fields of natural language processing and visual question answering. Through
experimental results, we show that the proposed model SiamCT-CA can
significantly outperform its counterparts. Furthermore, our method enables the
selective compression of videos, based on the validity of the constraint.
- Abstract(参考訳): 伝統的に、視覚オブジェクト追跡は、所定のビデオを通して対象オブジェクトを追跡し、オブジェクトの動きの軌跡を提供する。
しかし,多くの実用用途において,映像素材に付加的な意味情報を作用させる必要があるため,この出力はしばしば不十分である。
例えば、監視やターゲット固有のビデオ要約では、特定の事前定義された制約(例えば「黄色い車の近くに立つとき」)に関して、ターゲットを監視する必要がある。
本稿では,追加の言語制約を受ける視覚物体を探索し,追跡する。
Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。
彼らの仕事のゴールは、トラッキング自体の改善と拡張である。
ベンチマークと実験を行うために、元のLaSOTデータセットとMOT16データセットのフレームに追加の制約を加えることでキュレートされたc-MOT16とc-LaSOTという2つのデータセットをコントリビュートする。
また,最近のsiamese追跡法を拡張し,自然言語処理と視覚的質問応答の分野から着想を得たモジュールを追加することで得られた2つの深層モデルsiamct-dfgとsiamct-caについて実験を行った。
実験結果から,提案したSiamCT-CAモデルの方が優れた性能を示すことが示された。
また,制約の妥当性に基づき,動画の選択的圧縮が可能となる。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models [81.81382481184889]
TrackDiffusionは、トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャである。
生成したビデオシーケンスを,MOT(Multi-object Tracking)システムのトレーニングに活用できることを初めて実証した。
提案手法はTrackAPの8.7とTrackAPの11.8をYTVISデータセットの_50$で改善する。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Dense Video Object Captioning from Disjoint Supervision [74.29564964727813]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
我々のモデルはエンドツーエンドで訓練されており、空間的位置決め、追跡、キャプションのための異なるモジュールで構成されている。
我々のモデルは、VidSTGとVLNに基づく空間接地のための、最先端の専用モデルよりも優れています。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。