論文の概要: Siamese Tracking with Lingual Object Constraints
- arxiv url: http://arxiv.org/abs/2011.11721v1
- Date: Mon, 23 Nov 2020 20:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 02:38:29.433538
- Title: Siamese Tracking with Lingual Object Constraints
- Title(参考訳): 言語的対象制約によるシームズ追跡
- Authors: Maximilian Filtenborg, Efstratios Gavves, Deepak Gupta
- Abstract要約: 本稿では、追加の言語制約を受ける視覚オブジェクトの追跡について検討する。
Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。
本手法は,制約の妥当性に基づいて,動画の選択的圧縮を可能にする。
- 参考スコア(独自算出の注目度): 28.04334832366449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classically, visual object tracking involves following a target object
throughout a given video, and it provides us the motion trajectory of the
object. However, for many practical applications, this output is often
insufficient since additional semantic information is required to act on the
video material. Example applications of this are surveillance and
target-specific video summarization, where the target needs to be monitored
with respect to certain predefined constraints, e.g., 'when standing near a
yellow car'. This paper explores, tracking visual objects subjected to
additional lingual constraints. Differently from Li et al., we impose
additional lingual constraints upon tracking, which enables new applications of
tracking. Whereas in their work the goal is to improve and extend upon tracking
itself. To perform benchmarks and experiments, we contribute two datasets:
c-MOT16 and c-LaSOT, curated through appending additional constraints to the
frames of the original LaSOT and MOT16 datasets. We also experiment with two
deep models SiamCT-DFG and SiamCT-CA, obtained through extending a recent
state-of-the-art Siamese tracking method and adding modules inspired from the
fields of natural language processing and visual question answering. Through
experimental results, we show that the proposed model SiamCT-CA can
significantly outperform its counterparts. Furthermore, our method enables the
selective compression of videos, based on the validity of the constraint.
- Abstract(参考訳): 伝統的に、視覚オブジェクト追跡は、所定のビデオを通して対象オブジェクトを追跡し、オブジェクトの動きの軌跡を提供する。
しかし,多くの実用用途において,映像素材に付加的な意味情報を作用させる必要があるため,この出力はしばしば不十分である。
例えば、監視やターゲット固有のビデオ要約では、特定の事前定義された制約(例えば「黄色い車の近くに立つとき」)に関して、ターゲットを監視する必要がある。
本稿では,追加の言語制約を受ける視覚物体を探索し,追跡する。
Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。
彼らの仕事のゴールは、トラッキング自体の改善と拡張である。
ベンチマークと実験を行うために、元のLaSOTデータセットとMOT16データセットのフレームに追加の制約を加えることでキュレートされたc-MOT16とc-LaSOTという2つのデータセットをコントリビュートする。
また,最近のsiamese追跡法を拡張し,自然言語処理と視覚的質問応答の分野から着想を得たモジュールを追加することで得られた2つの深層モデルsiamct-dfgとsiamct-caについて実験を行った。
実験結果から,提案したSiamCT-CAモデルの方が優れた性能を示すことが示された。
また,制約の妥当性に基づき,動画の選択的圧縮が可能となる。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。