論文の概要: Towards a Generalist and Blind RGB-X Tracker
- arxiv url: http://arxiv.org/abs/2405.17773v1
- Date: Tue, 28 May 2024 03:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:32:09.523038
- Title: Towards a Generalist and Blind RGB-X Tracker
- Title(参考訳): 一般化とブラインドRGB-Xトラッカーを目指して
- Authors: Yuedong Tan, Zongwei Wu, Yuqian Fu, Zhuyun Zhou, Guolei Sun, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte,
- Abstract要約: 我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
- 参考スコア(独自算出の注目度): 91.36268768952755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of a single large model capable of successfully solving a multitude of tasks in NLP, there has been growing research interest in achieving similar goals in computer vision. On the one hand, most of these generic models, referred to as generalist vision models, aim at producing unified outputs serving different tasks. On the other hand, some existing models aim to combine different input types (aka data modalities), which are then processed by a single large model. Yet, this step of combination remains specialized, which falls short of serving the initial ambition. In this paper, we showcase that such specialization (during unification) is unnecessary, in the context of RGB-X video object tracking. Our single model tracker, termed XTrack, can remain blind to any modality X during inference time. Our tracker employs a mixture of modal experts comprising those dedicated to shared commonality and others capable of flexibly performing reasoning conditioned on input modality. Such a design ensures the unification of input modalities towards a common latent space, without weakening the modality-specific information representation. With this idea, our training process is extremely simple, integrating multi-label classification loss with a routing function, thereby effectively aligning and unifying all modalities together, even from only paired data. Thus, during inference, we can adopt any modality without relying on the inductive bias of the modal prior and achieve generalist performance. Without any bells and whistles, our generalist and blind tracker can achieve competitive performance compared to well-established modal-specific models on 5 benchmarks across 3 auxiliary modalities, covering commonly used depth, thermal, and event data.
- Abstract(参考訳): NLPにおける多数のタスクをうまく解決できる単一大規模モデルの出現により、コンピュータビジョンにおいて同様の目標を達成することへの研究の関心が高まっている。
一方、これらの一般的なモデルのほとんどは、汎用的なビジョンモデルと呼ばれ、異なるタスクに対応する統一されたアウトプットを作成することを目的としている。
一方、既存のモデルの中には、異なる入力タイプ(いわゆるデータモダリティ)を組み合わせて、1つの大きなモデルで処理するものもある。
しかし、この組み合わせのステップは依然として特別であり、最初の野心を果たせていない。
本稿では、RGB-Xビデオオブジェクト追跡の文脈において、このような特殊化(統一の際)は不要であることを示す。
私たちの単一モデルトラッカーであるXTrackは、推論時間中に任意のモダリティXに盲目のままでいられる。
我々のトラッカーは、共有共通性に特化したものと、入力モダリティに基づく推論を柔軟に行うことのできるものとを混合したモーダルエキスパートを用いている。
このような設計は、モダリティ固有の情報表現を弱めることなく、共通の潜在空間に対する入力モダリティの統一を保証する。
このアイデアにより、トレーニングプロセスは非常にシンプルで、複数ラベルの分類損失をルーティング関数と統合することで、ペアデータのみからでも、すべてのモダリティを効果的に整列し、統一することが可能になる。
したがって、推論の間、モーダルの帰納バイアスに頼らずに任意のモダリティを適用でき、ジェネラリストのパフォーマンスを達成することができる。
ベルとホイッスルがなければ、我々のジェネラリストとブラインドトラッカーは、3つの補助モーダルの5つのベンチマークにおいて、よく使われる深さ、熱、およびイベントデータを網羅した、確立されたモーダル特化モデルと比較して、競争性能を達成することができる。
関連論文リスト
- When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset [40.24765100535353]
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-14T09:16:49Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。