論文の概要: Serial Over Parallel: Learning Continual Unification for Multi-Modal Visual Object Tracking and Benchmarking
- arxiv url: http://arxiv.org/abs/2508.10655v1
- Date: Thu, 14 Aug 2025 13:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.342032
- Title: Serial Over Parallel: Learning Continual Unification for Multi-Modal Visual Object Tracking and Benchmarking
- Title(参考訳): Serial Over Parallel: マルチモーダルなビジュアルオブジェクト追跡とベンチマークのための継続的統一学習
- Authors: Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Chunyang Cheng, Tao Zhou, Xiaojun Wu, Josef Kittler,
- Abstract要約: 既存のプラクティスは、すべてのデータセンサータイプを単一のトレーニング手順で混合し、データ中心の観点から並列パラダイムを構築する。
すべての種類のデータが共存する統一ベンチマークが存在しないため、分離されたベンチマークの評価が強制され、トレーニングとテストの間にテキスト整合性が生じる。
UniBench300と呼ばれる統一ベンチマークは、複数のタスクデータを組み込んで、推論を3つから1つに減らし、時間の消費を27%削減することで、一貫性を橋渡しするために導入された。
- 参考スコア(独自算出の注目度): 35.3869415482475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unifying multiple multi-modal visual object tracking (MMVOT) tasks draws increasing attention due to the complementary nature of different modalities in building robust tracking systems. Existing practices mix all data sensor types in a single training procedure, structuring a parallel paradigm from the data-centric perspective and aiming for a global optimum on the joint distribution of the involved tasks. However, the absence of a unified benchmark where all types of data coexist forces evaluations on separated benchmarks, causing \textit{inconsistency} between training and testing, thus leading to performance \textit{degradation}. To address these issues, this work advances in two aspects: \ding{182} A unified benchmark, coined as UniBench300, is introduced to bridge the inconsistency by incorporating multiple task data, reducing inference passes from three to one and cutting time consumption by 27\%. \ding{183} The unification process is reformulated in a serial format, progressively integrating new tasks. In this way, the performance degradation can be specified as knowledge forgetting of previous tasks, which naturally aligns with the philosophy of continual learning (CL), motivating further exploration of injecting CL into the unification process. Extensive experiments conducted on two baselines and four benchmarks demonstrate the significance of UniBench300 and the superiority of CL in supporting a stable unification process. Moreover, while conducting dedicated analyses, the performance degradation is found to be negatively correlated with network capacity. Additionally, modality discrepancies contribute to varying degradation levels across tasks (RGBT > RGBD > RGBE in MMVOT), offering valuable insights for future multi-modal vision research. Source codes and the proposed benchmark is available at \textit{https://github.com/Zhangyong-Tang/UniBench300}.
- Abstract(参考訳): マルチモーダル・ビジュアル・オブジェクト・トラッキング(MMVOT)タスクの統合は、ロバストなトラッキングシステムの構築において、様々なモダリティの相補性によって注目される。
既存のプラクティスは、すべてのデータセンサータイプを単一のトレーニング手順で混合し、データ中心の観点から並列パラダイムを構築し、関連するタスクの共同分散に対するグローバルな最適化を目指している。
しかしながら、すべての種類のデータが分離されたベンチマークで評価を強制する統一ベンチマークが存在しないため、トレーニングとテストの間に‘textit{insistency} が生じるため、パフォーマンスが‘textit{degradation} になる。
統一ベンチマークであるUniBench300は、複数のタスクデータを組み込むことで一貫性を橋渡し、推論を3つから1つに減らし、時間の消費を27%削減する。
\ding{183} 統一プロセスはシリアルフォーマットで再編成され、徐々に新しいタスクを統合する。
このようにして、パフォーマンス劣化は、継続学習(CL)の哲学と自然に一致し、CLを統一プロセスに注入することのさらなる探索を動機付ける、以前のタスクを忘れる知識として特定することができる。
2つのベースラインと4つのベンチマークで実施された大規模な実験は、安定な統一プロセスをサポートする上でのUniBench300の重要性とCLの優位性を示している。
さらに, 専用解析を行いながら, 性能劣化はネットワーク容量と負の相関関係にあることがわかった。
さらに、モダリティの相違はタスク間での様々な劣化レベル(RGBT > RGBD > RGBE in MMVOT)に寄与し、将来のマルチモーダル視覚研究に有用な洞察を提供する。
ソースコードと提案されたベンチマークは、textit{https://github.com/Zhangyong-Tang/UniBench300}で公開されている。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
重み付きクロスアテンションに基づくデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案する。
また、追跡クエリに対する自己中心的な注意の障壁を突破するために、インスタンス対応のContrastive Learningを導入します。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - Integrating Present and Past in Unsupervised Continual Learning [28.208585464074176]
教師なし連続学習(UCL)のための統一的枠組みを定式化する。
既存のUCLアプローチの多くは、クロスタスク統合を見落とし、共有埋め込み空間における可塑性と安定性のバランスを図っている。
論文 参考訳(メタデータ) (2024-04-29T22:31:21Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。