論文の概要: Joint Visual Grounding and Tracking with Natural Language Specification
- arxiv url: http://arxiv.org/abs/2303.12027v1
- Date: Tue, 21 Mar 2023 17:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:03:22.377182
- Title: Joint Visual Grounding and Tracking with Natural Language Specification
- Title(参考訳): 自然言語仕様を用いた共同視覚グラウンディングと追跡
- Authors: Li Zhou, Zikun Zhou, Kaige Mao, Zhenyu He
- Abstract要約: 自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
- 参考スコア(独自算出の注目度): 6.695284124073918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking by natural language specification aims to locate the referred target
in a sequence based on the natural language description. Existing algorithms
solve this issue in two steps, visual grounding and tracking, and accordingly
deploy the separated grounding model and tracking model to implement these two
steps, respectively. Such a separated framework overlooks the link between
visual grounding and tracking, which is that the natural language descriptions
provide global semantic cues for localizing the target for both two steps.
Besides, the separated framework can hardly be trained end-to-end. To handle
these issues, we propose a joint visual grounding and tracking framework, which
reformulates grounding and tracking as a unified task: localizing the referred
target based on the given visual-language references. Specifically, we propose
a multi-source relation modeling module to effectively build the relation
between the visual-language references and the test image. In addition, we
design a temporal modeling module to provide a temporal clue with the guidance
of the global semantic information for our model, which effectively improves
the adaptability to the appearance variations of the target. Extensive
experimental results on TNL2K, LaSOT, OTB99, and RefCOCOg demonstrate that our
method performs favorably against state-of-the-art algorithms for both tracking
and grounding. Code is available at https://github.com/lizhou-cs/JointNLT.
- Abstract(参考訳): 自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
既存のアルゴリズムは、視覚の接地と追跡という2つのステップでこの問題を解決し、それぞれ2つのステップを実装するために分離された接地モデルと追跡モデルをデプロイする。
このような分離されたフレームワークは、視覚的な接地と追跡の間のリンクを見落とし、自然言語記述は2つのステップでターゲットをローカライズするためのグローバルな意味的手がかりを提供する。
さらに、分離されたフレームワークはエンドツーエンドではほとんど訓練できない。
そこで本稿では,視覚言語参照に基づいて参照対象をローカライズする統一タスクとして,接地と追跡を再構成する視覚接地と追跡フレームワークを提案する。
具体的には,視覚言語参照とテスト画像の関係を効果的に構築する多元関係モデリングモジュールを提案する。
さらに,本モデルに対するグローバルな意味情報のガイダンスを用いた時間的手がかりを提供するための時間的モデリングモジュールを設計し,ターゲットの外観変化への適応性を効果的に改善する。
TNL2K, LaSOT, OTB99, RefCOCOg の大規模実験結果から,本手法はトラッキングとグラウンドの両方において最先端のアルゴリズムに対して良好に動作することを示した。
コードはhttps://github.com/lizhou-cs/JointNLTで入手できる。
関連論文リスト
- Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Context-Aware Integration of Language and Visual References for Natural Language Tracking [27.3884348078998]
自然言語仕様(TNL)による追跡は、初期フレームに言語的記述が与えられたビデオシーケンスにおいて、ターゲットを一貫してローカライズすることを目的としている。
本稿では,1)時間的視覚的テンプレートと言語表現の相補性を活用するためのプロンプトモジュールを併用したマルチモーダルトラッキングフレームワークを提案する。
この設計は、歴史的視覚情報と統合されたソリューションを活用することで時間的一貫性を確保し、単一のステップで予測を生成する。
論文 参考訳(メタデータ) (2024-03-29T04:58:33Z) - Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - Learning Point-Language Hierarchical Alignment for 3D Visual Grounding [35.17185775314988]
本稿では,多粒度視覚表現と言語表現をエンドツーエンドに学習する階層アライメントモデル(HAM)を提案する。
我々は,3次元コンテキストとインスタンスをモデル化するためのキーポイントと提案ポイントを抽出し,コンテキスト変調によるポイント言語アライメントを提案する。
グローバルな関係と局所的な関係を更に捉えるために,空間的に多重なモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-10-22T18:02:10Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。