論文の概要: EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively
- arxiv url: http://arxiv.org/abs/2504.05141v2
- Date: Wed, 09 Apr 2025 01:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 09:45:06.919640
- Title: EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively
- Title(参考訳): EffOWT: ビジュアル言語モデルをオープンワールド追跡に効果的かつ効果的に移行する
- Authors: Bingyang Wang, Kaer Huang, Bin Li, Yiqiang Yan, Lihe Zhang, Huchuan Lu, You He,
- Abstract要約: Open-World Tracking (OWT) は,任意のカテゴリのすべてのオブジェクトを追跡することを目的としている。
EffOWTは未知のカテゴリの追跡基準OWTAで5.5%の絶対的なゲインを達成するが、完全な微調整に比べてパラメータの1.3%しか更新しない。
- 参考スコア(独自算出の注目度): 60.48750788231384
- License:
- Abstract: Open-World Tracking (OWT) aims to track every object of any category, which requires the model to have strong generalization capabilities. Trackers can improve their generalization ability by leveraging Visual Language Models (VLMs). However, challenges arise with the fine-tuning strategies when VLMs are transferred to OWT: full fine-tuning results in excessive parameter and memory costs, while the zero-shot strategy leads to sub-optimal performance. To solve the problem, EffOWT is proposed for efficiently transferring VLMs to OWT. Specifically, we build a small and independent learnable side network outside the VLM backbone. By freezing the backbone and only executing backpropagation on the side network, the model's efficiency requirements can be met. In addition, EffOWT enhances the side network by proposing a hybrid structure of Transformer and CNN to improve the model's performance in the OWT field. Finally, we implement sparse interactions on the MLP, thus reducing parameter updates and memory costs significantly. Thanks to the proposed methods, EffOWT achieves an absolute gain of 5.5% on the tracking metric OWTA for unknown categories, while only updating 1.3% of the parameters compared to full fine-tuning, with a 36.4% memory saving. Other metrics also demonstrate obvious improvement.
- Abstract(参考訳): Open-World Tracking (OWT) は,任意のカテゴリのすべてのオブジェクトを追跡することを目的としている。
トラッカーは、Visual Language Models (VLM)を活用することで、その一般化能力を改善することができる。
しかし、VLMがOWTに転送されるときの微調整戦略は、完全な微調整結果が過剰なパラメータとメモリコストをもたらすのに対して、ゼロショット戦略は準最適性能をもたらす。
この問題を解決するために, VLM を OWT へ効率的に転送するための EffOWT を提案する。
具体的には、VLMバックボーンの外側に、小さくて独立した学習可能なサイドネットワークを構築します。
バックボーンを凍結し、サイドネットワーク上でのみバックプロパゲーションを実行することで、モデルの効率要件を満たすことができる。
さらに、EffOWTは、トランスフォーマーとCNNのハイブリッド構造を提案し、OWTフィールドにおけるモデルの性能を向上させることで、サイドネットワークを強化する。
最後に,MLP上でのスパースインタラクションを実装し,パラメータ更新やメモリコストを大幅に削減する。
提案手法により、EffOWTは未知のカテゴリの追跡基準OWTAで5.5%の絶対的なゲインを達成する一方で、完全な微調整に比べてパラメータの1.3%しか更新せず、36.4%のメモリ節約を実現している。
他の指標も明らかな改善を示している。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM
Finetuning [34.49906405191175]
本稿では,Large Language Model(LLM)をMLLM(Multi-Modal Large Language Model)に変換するための効率的な戦略を提案する。
強いパフォーマンスを得るためにLayerNormをチューニングする。
フルパラメータファインタニングやLoRAといった他のチューニングアプローチと比較した場合、その効率性に対するメリットはかなり大きい。
論文 参考訳(メタデータ) (2023-12-18T18:21:43Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。