論文の概要: Context-Aware Integration of Language and Visual References for Natural Language Tracking
- arxiv url: http://arxiv.org/abs/2403.19975v1
- Date: Fri, 29 Mar 2024 04:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:34:41.902502
- Title: Context-Aware Integration of Language and Visual References for Natural Language Tracking
- Title(参考訳): 自然言語追跡のための言語と視覚的参照の文脈認識統合
- Authors: Yanyan Shao, Shuting He, Qi Ye, Yuchao Feng, Wenhan Luo, Jiming Chen,
- Abstract要約: 自然言語仕様(TNL)による追跡は、初期フレームに言語的記述が与えられたビデオシーケンスにおいて、ターゲットを一貫してローカライズすることを目的としている。
本稿では,1)時間的視覚的テンプレートと言語表現の相補性を活用するためのプロンプトモジュールを併用したマルチモーダルトラッキングフレームワークを提案する。
この設計は、歴史的視覚情報と統合されたソリューションを活用することで時間的一貫性を確保し、単一のステップで予測を生成する。
- 参考スコア(独自算出の注目度): 27.3884348078998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking by natural language specification (TNL) aims to consistently localize a target in a video sequence given a linguistic description in the initial frame. Existing methodologies perform language-based and template-based matching for target reasoning separately and merge the matching results from two sources, which suffer from tracking drift when language and visual templates miss-align with the dynamic target state and ambiguity in the later merging stage. To tackle the issues, we propose a joint multi-modal tracking framework with 1) a prompt modulation module to leverage the complementarity between temporal visual templates and language expressions, enabling precise and context-aware appearance and linguistic cues, and 2) a unified target decoding module to integrate the multi-modal reference cues and executes the integrated queries on the search image to predict the target location in an end-to-end manner directly. This design ensures spatio-temporal consistency by leveraging historical visual information and introduces an integrated solution, generating predictions in a single step. Extensive experiments conducted on TNL2K, OTB-Lang, LaSOT, and RefCOCOg validate the efficacy of our proposed approach. The results demonstrate competitive performance against state-of-the-art methods for both tracking and grounding.
- Abstract(参考訳): 自然言語仕様(TNL)による追跡は、初期フレームに言語的記述が与えられたビデオシーケンスにおいて、ターゲットを一貫してローカライズすることを目的としている。
既存の手法では、ターゲット推論のための言語ベースおよびテンプレートベースのマッチングを別々に実行し、2つのソースからのマッチング結果をマージする。
この問題に対処するため,我々はマルチモーダル・トラッキング・フレームワークを共同で提案する。
1)時間的視覚的テンプレートと言語表現の相補性を活用し、正確かつ文脈に配慮した外観と言語的手がかりを可能にするプロンプト変調モジュール
2)マルチモーダル参照キューを統合し、検索画像上で統合されたクエリを実行し、ターゲット位置をエンドツーエンドで直接予測する統合されたターゲットデコーディングモジュール。
この設計は、歴史的視覚情報を活用することで時空間整合性を確保し、統合されたソリューションを導入し、単一のステップで予測を生成する。
TNL2K, OTB-Lang, LaSOT, RefCOCOgで行った大規模な実験により, 提案手法の有効性が検証された。
その結果, トラッキングとグラウンドの両面において, 最先端の手法に対する競合性能が示された。
関連論文リスト
- Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Semi-Supervised Cross-Modal Salient Object Detection with U-Structure
Networks [18.12933868289846]
言語情報を視覚に基づくU-Structureネットワークに組み込むことにより,適切な物体検出作業を実現する。
本稿では,視覚的特徴と言語的特徴を組み合わせるために,効率的なクロスモーダル自己認識(eCMSA)と呼ばれる新しいモジュールを提案する。
ラベル付けの負担を軽減するため,画像キャプションモデルをトレーニングし,半教師付き学習手法を用いた。
論文 参考訳(メタデータ) (2022-08-08T18:39:37Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z) - MUTATT: Visual-Textual Mutual Guidance for Referring Expression
Comprehension [16.66775734538439]
参照式理解は、自然言語の参照式により、与えられた画像中のテキスト関連領域をローカライズすることを目的としている。
我々はRECにおいて参照表現と対象領域は意味論的に相関していると主張している。
視覚と言語間の相互指導を構築するために,MutAttと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-18T03:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。