Fugu-MT 論文翻訳(概要): All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment

論文の概要: All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment

arxiv url: http://arxiv.org/abs/2307.03373v1
Date: Fri, 7 Jul 2023 03:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 13:26:39.031993
Title: All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment
Title（参考訳）: オールインワン:マルチモーダルアライメントによる統合視覚言語追跡の探索
Authors: Chunhui Zhang, and Xin Sun, and Li Liu, and Yiqian Yang, and Qiong Liu, and Xi Zhou, and Yanfeng Wang
Abstract要約: 現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
参考スコア（独自算出の注目度）: 23.486297020327257
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Current mainstream vision-language (VL) tracking framework consists of three parts, \ie a visual feature extractor, a language feature extractor, and a fusion model. To pursue better performance, a natural modus operandi for VL tracking is employing customized and heavier unimodal encoders, and multi-modal fusion models. Albeit effective, existing VL trackers separate feature extraction and feature integration, resulting in extracted features that lack semantic guidance and have limited target-aware capability in complex scenarios, \eg similar distractors and extreme illumination. In this work, inspired by the recent success of exploring foundation models with unified architecture for both natural language and computer vision tasks, we propose an All-in-One framework, which learns joint feature extraction and interaction by adopting a unified transformer backbone. Specifically, we mix raw vision and language signals to generate language-injected vision tokens, which we then concatenate before feeding into the unified backbone architecture. This approach achieves feature integration in a unified backbone, removing the need for carefully-designed fusion modules and resulting in a more effective and efficient VL tracking framework. To further improve the learning efficiency, we introduce a multi-modal alignment module based on cross-modal and intra-modal contrastive objectives, providing more reasonable representations for the unified All-in-One transformer backbone. Extensive experiments on five benchmarks, \ie OTB99-L, TNL2K, LaSOT, LaSOT$_{\rm Ext}$ and WebUAV-3M, demonstrate the superiority of the proposed tracker against existing state-of-the-arts on VL tracking. Codes will be made publicly available.
Abstract（参考訳）: 現在主流の視覚言語追跡フレームワークは、3つの部分からなる: \ie a visual feature extractor, language feature extractor, and a fusion model。性能向上のために、VLトラッキングのための自然なモードオペランは、カスタマイズされたより重い単調エンコーダとマルチモーダル融合モデルを使用している。有効ではあるが、既存のVLトラッカーは機能抽出と機能統合を分離し、セマンティックガイダンスが欠如し、複雑なシナリオでのターゲット認識能力に制限のある機能を抽出する。本稿では,自然言語タスクとコンピュータビジョンタスクの融合アーキテクチャを用いた基礎モデル探索の最近の成功に触発されて,統合トランスフォーマーバックボーンを採用することで,機能抽出とインタラクションを学習するオールインワンフレームワークを提案する。具体的には、生の視覚と言語信号を混ぜて、言語にインジェクトされた視覚トークンを生成します。このアプローチは、統合されたバックボーンにおける機能統合を実現し、慎重に設計されたフュージョンモジュールの必要性を排除し、より効率的で効率的なVLトラッキングフレームワークを実現する。さらに学習効率を向上させるために,クロスモーダルおよびイントラモーダルコントラスト目標に基づくマルチモーダルアライメントモジュールを導入し,統一オールインワントランスフォーマーバックボーンに対して,より合理的な表現を提供する。 OTB99-L, TNL2K, LaSOT, LaSOT$_{\rm Ext}$とWebUAV-3Mの5つのベンチマークにおいて、提案されたトラッカーが既存のVL追跡技術に対して優れていることを実証した。コードは公開される予定だ。

関連論文リスト

COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文参考訳（メタデータ） (2025-04-02T03:12:38Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文参考訳（メタデータ） (2023-08-27T13:17:34Z)
Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-19T15:22:06Z)
i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文参考訳（メタデータ） (2022-05-03T23:38:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。