Fugu-MT 論文翻訳(概要): Camera clustering for scalable stream-based active distillation

論文の概要: Camera clustering for scalable stream-based active distillation

arxiv url: http://arxiv.org/abs/2404.10411v1
Date: Tue, 16 Apr 2024 09:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 17:23:30.988750
Title: Camera clustering for scalable stream-based active distillation
Title（参考訳）: スケーラブルなストリーム型アクティブ蒸留のためのカメラクラスタリング
Authors: Dani Manjah, Davide Cacciarelli, Christophe De Vleeschouwer, Benoit Macq,
Abstract要約: ビデオオブジェクト検出のための効率的な軽量モデルを構築するために,スケーラブルなフレームワークを提案する。ビデオストリームからのトレーニング画像の理想的な選択方法と,多数のカメラ間でのモデル共有の有効性について検討する。
参考スコア（独自算出の注目度）: 12.730493079013456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a scalable framework designed to craft efficient lightweight models for video object detection utilizing self-training and knowledge distillation techniques. We scrutinize methodologies for the ideal selection of training images from video streams and the efficacy of model sharing across numerous cameras. By advocating for a camera clustering methodology, we aim to diminish the requisite number of models for training while augmenting the distillation dataset. The findings affirm that proper camera clustering notably amplifies the accuracy of distilled models, eclipsing the methodologies that employ distinct models for each camera or a universal model trained on the aggregate camera data.
Abstract（参考訳）: 本稿では,自己学習技術と知識蒸留技術を用いて,映像オブジェクト検出のための効率的な軽量モデルを構築するためのスケーラブルなフレームワークを提案する。ビデオストリームからのトレーニング画像の理想的な選択方法と,多数のカメラ間でのモデル共有の有効性について検討する。カメラクラスタリング手法を提唱することで、蒸留データセットを増強しながら、トレーニングに必要なモデルの数を減らしたいと考えている。これらの結果は、適切なカメラクラスタリングが蒸留されたモデルの精度を顕著に増幅し、それぞれのカメラに異なるモデルを採用する方法論や、集約されたカメラデータに基づいて訓練された普遍的なモデルを取り除いたことを裏付けている。

関連論文リスト

Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文参考訳（メタデータ） (2025-05-10T15:12:19Z)
Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。 Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文参考訳（メタデータ） (2024-12-08T18:59:54Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文参考訳（メタデータ） (2024-06-25T10:56:03Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-01-21T05:50:39Z)
Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-20T18:46:31Z)
Improving Image Clustering through Sample Ranking and Its Application to remote--sensing images [14.531733039462058]
本稿では,現在クラスタに属するクラスタの信頼性に基づいて,各クラスタ内のサンプルをランク付けする新しい手法を提案する。そこで,本研究では,人口密度の密集した地域にあるか否かに基づいて,現在のクラスタに属するサンプルの確率を計算する手法を開発した。本手法はリモートセンシング画像に効果的に適用可能であることを示す。
論文参考訳（メタデータ） (2022-09-26T12:10:02Z)
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。本研究では,映像分類作業における知識の伝達に着目した。予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文参考訳（メタデータ） (2022-07-04T10:00:47Z)
Self-Supervised Camera Self-Calibration from Video [34.35533943247917]
汎用カメラモデルの効率的なファミリーを用いてシーケンスごとのキャリブレーションパラメータを回帰する学習アルゴリズムを提案する。提案手法は,サブピクセル再投射誤差による自己校正を行い,他の学習手法よりも優れる。
論文参考訳（メタデータ） (2021-12-06T19:42:05Z)
MEAL: Manifold Embedding-based Active Learning [0.0]
アクティブな学習は、ラベル付けのための最も有望なサンプルを提案することで、少量のデータから学ぶのに役立つ。本稿では,各獲得ステップにおいて,有望な画像領域を提案するアクティブラーニングのためのプールベースの新しい手法を提案する。また,Cityscapesでは,Cityscapesでは,CamVidの性能向上が認められなかった。
論文参考訳（メタデータ） (2021-06-22T15:22:56Z)
ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文参考訳（メタデータ） (2021-03-07T04:33:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。