Fugu-MT 論文翻訳(概要): Type-to-Track: Retrieve Any Object via Prompt-based Tracking

論文の概要: Type-to-Track: Retrieve Any Object via Prompt-based Tracking

arxiv url: http://arxiv.org/abs/2305.13495v3
Date: Sat, 30 Sep 2023 18:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:43:29.869719
Title: Type-to-Track: Retrieve Any Object via Prompt-based Tracking
Title（参考訳）: Type-to-Track: Promptベースのトラッキングによる任意のオブジェクトの検索
Authors: Pha Nguyen, Kha Gia Quach, Kris Kitani, Khoa Luu
Abstract要約: 本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。 Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
参考スコア（独自算出の注目度）: 34.859061177766016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$\times$ speed faster.
Abstract（参考訳）: 視覚問題の最近のトレンドの1つは、興味のある対象を記述するために自然言語キャプションを使用することである。このアプローチは、境界ボックスやカテゴリアノテーションに依存する従来のメソッドのいくつかの制限を克服することができる。本稿では,ユーザが自然言語記述を入力して動画中のオブジェクトを追跡できる,複数のオブジェクト追跡のための新しいパラダイムであるtype-to-trackを提案する。我々は,GroOTと呼ばれる,さまざまな種類のオブジェクトと,その外観と動作を詳細に記述したテキストキャプションを収録した,新しいグラウンドド・マルチオブジェクト追跡タスクのデータセットを提案する。さらに,本課題に特化して2つの評価プロトコルと評価基準を導入する。本研究では,3次テンソル分解を用いたトランスフォーマーベースのeMbed-ENcoDE-extRactフレームワーク(MENDER)をモデル化する。 5つのシナリオでの実験では、MENDERのアプローチは、精度と効率の点で別の2段階の設計よりも14.7%の精度と4$\times$スピードで優れていることが示された。

関連論文リスト

Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。 CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文参考訳（メタデータ） (2025-03-14T15:21:54Z)
InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文参考訳（メタデータ） (2024-11-25T14:27:50Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。 OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。 VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文参考訳（メタデータ） (2024-10-11T05:01:49Z)
TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT [0.0]
マルチオブジェクト追跡(MOT)は、かなり進歩しているが、事前の知識に大きく依存している。ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)は、類似した外観を持つ複数のオブジェクトを追跡するが、ターゲットに関する事前情報が少ない。我々はtextbftextTP-GMOTと呼ばれる新しいテキストプロンプトベースのオープン語彙GMOTフレームワークを導入する。 GMOTタスク用のtextRefer-GMOTデータセット上で、コントリビューションをベンチマークします。
論文参考訳（メタデータ） (2024-09-04T07:33:09Z)
Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文参考訳（メタデータ） (2024-06-07T11:18:40Z)
Exploring Robust Features for Few-Shot Object Detection in Satellite Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文参考訳（メタデータ） (2024-03-08T15:20:27Z)
OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文参考訳（メタデータ） (2023-04-17T16:20:05Z)
Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文参考訳（メタデータ） (2023-03-23T05:10:22Z)
Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文参考訳（メタデータ） (2023-03-06T18:50:06Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)
Interactive Multi-Class Tiny-Object Detection [11.243831167773678]
本稿では,複数のクラスからの小さなオブジェクトの複数インスタンスに対して,インタラクティブなアノテーション手法を提案する。我々のアプローチであるC3Detは、局所的およびグローバル的にアノテータ入力とフルイメージコンテキストを関連づける。提案手法は対話的アノテーションにおいて既存の手法よりも優れており,より少ないクリックで高いmAPを実現する。
論文参考訳（メタデータ） (2022-03-29T06:27:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。