Fugu-MT 論文翻訳(概要): Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT

論文の概要: Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT

arxiv url: http://arxiv.org/abs/2407.18288v1
Date: Thu, 25 Jul 2024 14:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 15:18:53.290007
Title: Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT
Title（参考訳）: 多対象追跡における知識蒸留による基礎モデルの活用:DINOv2特徴のFairMOTへの蒸留
Authors: Niels G. Faber, Seyed Sahand Mohammadi Ziabari, Fatemeh Karimi Najadasl,
Abstract要約: この研究は、知識蒸留を用いて、DINOv2と呼ばれる1つの基礎モデルを活用することを試みている。その結果,提案手法は特定のシナリオの改善を示すが,本来のFairMOTモデルよりも常に優れているわけではないことが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple Object Tracking (MOT) is a computer vision task that has been employed in a variety of sectors. Some common limitations in MOT are varying object appearances, occlusions, or crowded scenes. To address these challenges, machine learning methods have been extensively deployed, leveraging large datasets, sophisticated models, and substantial computational resources. Due to practical limitations, access to the above is not always an option. However, with the recent release of foundation models by prominent AI companies, pretrained models have been trained on vast datasets and resources using state-of-the-art methods. This work tries to leverage one such foundation model, called DINOv2, through using knowledge distillation. The proposed method uses a teacher-student architecture, where DINOv2 is the teacher and the FairMOT backbone HRNetv2 W18 is the student. The results imply that although the proposed method shows improvements in certain scenarios, it does not consistently outperform the original FairMOT model. These findings highlight the potential and limitations of applying foundation models in knowledge
Abstract（参考訳）: Multi Object Tracking (MOT) はコンピュータビジョンタスクであり、様々な分野に採用されている。 MOTの一般的な制限は、様々なオブジェクトの外観、オクルージョン、または混雑したシーンである。これらの課題に対処するため、機械学習手法は広範囲にデプロイされ、大規模なデータセット、洗練されたモデル、および相当量の計算資源を活用している。現実的な制限のため、上記へのアクセスは必ずしもオプションではない。しかし、著名なAI企業による最近のファンデーションモデルのリリースにより、事前訓練されたモデルは最先端の手法を使用して膨大なデータセットとリソースで訓練されている。この研究は、知識蒸留を用いて、DINOv2と呼ばれる1つの基礎モデルを活用することを試みている。 DINOv2は教師、FairMOTのバックボーンHRNetv2 W18は学生である。その結果,提案手法は特定のシナリオの改善を示すが,本来のFairMOTモデルよりも常に優れているわけではないことが示唆された。これらの知見は知識に基礎モデルを適用する可能性と限界を浮き彫りにする。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Model [11.010846827099936]
VLM(Vision-Language Models)は、マルチモーダルタスクに強力な理解と推論能力をもたらす。そこで我々は,浅層で発生するクロスモーダルマッチングを学生モデルで学習するためのAlign-KD法を提案する。 Align-KDの指導のもと、1.7B MobileVLM V2モデルは、訓練損失の軽さで7B教師モデルから豊富な知識を学ぶことができる。
論文参考訳（メタデータ） (2024-12-02T08:55:19Z)
iNeMo: Incremental Neural Mesh Models for Robust Class-Incremental Learning [22.14627083675405]
我々は、時間とともに新しいメッシュで拡張できるインクリメンタルニューラルネットワークモデルを提案する。本研究では,Pascal3DおよびObjectNet3Dデータセットの広範な実験を通して,本手法の有効性を実証する。我々の研究は、ポーズ推定のための最初の漸進的な学習手法も提示している。
論文参考訳（メタデータ） (2024-07-12T13:57:49Z)
Low-resource finetuning of foundation models beats state-of-the-art in histopathology [3.4577420145036375]
病理組織学データの特徴抽出器として最も人気のある視覚基盤モデルをベンチマークする。データセットに応じて、単一のGPU上のファンデーションモデルをわずか2時間から3日で微調整することで、最先端の機能抽出器にマッチまたは性能を向上することができる。これは、大量のリソースとデータセットを持つ機関だけが特徴抽出器を訓練できる、現在の状態からかなり変化している。
論文参考訳（メタデータ） (2024-01-09T18:46:59Z)
Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。 LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文参考訳（メタデータ） (2023-10-12T10:20:36Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文参考訳（メタデータ） (2023-04-17T16:20:05Z)
DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文参考訳（メタデータ） (2023-04-14T15:12:19Z)
Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文参考訳（メタデータ） (2023-04-05T07:28:33Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。