論文の概要: GLAD: Generative Language-Assisted Visual Tracking for Low-Semantic Templates
- arxiv url: http://arxiv.org/abs/2602.00570v1
- Date: Sat, 31 Jan 2026 07:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.259475
- Title: GLAD: Generative Language-Assisted Visual Tracking for Low-Semantic Templates
- Title(参考訳): GLAD:低セマンティックテンプレートのための生成言語支援ビジュアルトラッキング
- Authors: Xingyu Luo, Yidong Cai, Jie Liu, Jie Tang, Gangshan Wu, Limin Wang,
- Abstract要約: 視覚言語追跡は多くのシナリオで注目を集めている。
現在の視覚言語トラッカーは通常、テンプレート、検索、テキスト機能のインタラクティブな統合にTransformerアーキテクチャを使用する。
本稿では,テキスト記述とテンプレート画像の多モード融合のための拡散モデルを用いたジェネレーティブ言語・アシステD追跡モデルGLADを提案する。
- 参考スコア(独自算出の注目度): 48.65964582402597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language tracking has gained increasing attention in many scenarios. This task simultaneously deals with visual and linguistic information to localize objects in videos. Despite its growing utility, the development of vision-language tracking methods remains in its early stage. Current vision-language trackers usually employ Transformer architectures for interactive integration of template, search, and text features. However, persistent challenges about low-semantic images including prevalent image blurriness, low resolution and so on, may compromise model performance through degraded cross-modal understanding. To solve this problem, language assistance is usually used to deal with the obstacles posed by low-semantic images. However, due to the existing gap between current textual and visual features, direct concatenation and fusion of these features may have limited effectiveness. To address these challenges, we introduce a pioneering Generative Language-AssisteD tracking model, GLAD, which utilizes diffusion models for the generative multi-modal fusion of text description and template image to bolster compatibility between language and image and enhance template image semantic information. Our approach demonstrates notable improvements over the existing fusion paradigms. Blurry and semantically ambiguous template images can be restored to improve multi-modal features in the generative fusion paradigm. Experiments show that our method establishes a new state-of-the-art on multiple benchmarks and achieves an impressive inference speed. The code and models will be released at: https://github.com/Confetti-lxy/GLAD
- Abstract(参考訳): 視覚言語追跡は多くのシナリオで注目を集めている。
このタスクは、ビデオ内のオブジェクトをローカライズする視覚情報と言語情報を同時に扱う。
実用性は向上しているが、視覚言語追跡手法の開発はまだ初期段階にある。
現在の視覚言語トラッカーは通常、テンプレート、検索、テキスト機能のインタラクティブな統合にTransformerアーキテクチャを使用する。
しかし、画像のぼかしや解像度の低さなど、低セマンティックな画像に対する永続的な課題は、劣化したクロスモーダル理解によってモデル性能を損なう可能性がある。
この問題を解決するために、言語支援は通常、低セマンティック画像によって引き起こされる障害に対処するために使用される。
しかし、現在のテキストと視覚的特徴の間に既存のギャップがあるため、これらの特徴の直接結合と融合は、効果が限られている可能性がある。
これらの課題に対処するために,テキスト記述とテンプレート画像の多モード融合のための拡散モデルを利用して,言語と画像の互換性を高め,テンプレート画像の意味情報を強化するジェネレーティブ言語・アシステD追跡モデルGLADを導入する。
我々のアプローチは、既存の融合パラダイムよりも顕著に改善されている。
生成的融合パラダイムのマルチモーダル特徴を改善するために、ブルーリーで意味的に曖昧なテンプレートイメージを復元することができる。
実験により,本手法は複数のベンチマーク上で新たな最先端性を確立し,予測速度を著しく向上することを示す。
コードとモデルは、https://github.com/Confetti-lxy/GLADでリリースされる。
関連論文リスト
- Remodeling Semantic Relationships in Vision-Language Fine-Tuning [41.69418068980686]
セマンティクスと関係性の両方に基づいてマルチモーダルアライメントと融合を改善する手法を提案する。
視覚的特徴をグループ関連セマンティクスに投影することを学びました。
最後に、継承可能なクロスアテンションを用いて視覚的特徴をテキストと融合させ、冗長な視覚的関係をグローバルに除去する。
論文 参考訳(メタデータ) (2025-11-11T13:37:13Z) - Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。