論文の概要: Lightweight Distillation of SAM 3 and DINOv3 for Edge-Deployable Individual-Level Livestock Monitoring and Longitudinal Visual Analytics
- arxiv url: http://arxiv.org/abs/2604.27128v1
- Date: Wed, 29 Apr 2026 19:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.772376
- Title: Lightweight Distillation of SAM 3 and DINOv3 for Edge-Deployable Individual-Level Livestock Monitoring and Longitudinal Visual Analytics
- Title(参考訳): 極端展開型個別牛肉モニタリングと経時的視覚分析のためのSAM3およびDINOv3の軽量蒸留
- Authors: Haiyu Yang, Miel Hostens,
- Abstract要約: 個別レベルの家畜モニタリングのための基礎モデルパイプラインは、精度の高い家畜栽培の精度を高める。
しかし、GPUメモリの予算は、コモディティエッジアクセラレーターのエンベロープを超えている。
このギャップを埋めるため、SAM 3のバックボーンは40.66Mスケールのマルチスケールの学生に蒸留される。
このパイプラインは9級豚の行動分類において97.34%の精度で91.67%のマクロF1を達成している。
- 参考スコア(独自算出の注目度): 0.3609538870261841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation-model pipelines for individual-level livestock monitoring -- combining open-vocabulary detection, promptable video segmentation, and self-supervised visual embeddings -- have raised the accuracy ceiling of precision livestock farming (PLF), but their GPU memory budgets exceed the envelope of commodity edge accelerators. To close this gap, the 446M-parameter Perception Encoder (PE-ViT-L+) backbone of SAM 3 is distilled into a 40.66M-parameter multi-scale student through three mechanisms: a Feature Pyramid Network student encoder built on TinyViT-21M-512, a four-term direction-then-scale distillation loss, and backbone-substitution inference with sliding-window session pruning that bounds streaming GPU memory growth. The DINOv3 family includes a pre-distilled ViT-S/16 variant (21.6M parameters) released alongside a 6716M-parameter ViT-7B teacher; the ViT-S (21M) variant is adopted as the per-individual embedder. On the Edinburgh Pig dataset, the compressed pipeline reaches 92.29% MOTA and 96.15% IDF1 against the SAM 3 teacher (1.68- and 0.84-percentage-point losses), achieves a 7.77-fold reduction in system-level parameters and a 3.01-fold reduction in peak VRAM (19.52GB -> 6.49GB), and reaches 97.34% top-1 accuracy with 91.67% macro-F1 on nine-class pig behaviour classification. The pipeline fits inside an NVIDIA Jetson Orin NX 16GB envelope with 4.9GB of headroom, supporting a proposed -- but not yet empirically validated -- on-device embedding-pool re-identification mechanism whose per-individual footprint of approximately 94MB per animal per year produces a longitudinal visual record amenable to retrospective association with disease, lameness, reproductive, and growth outcome labels.
- Abstract(参考訳): オープンボキャブラリ検出、プロンプト可能なビデオセグメンテーション、自己監督型視覚埋め込みを組み合わせた、個人レベルの家畜モニタリングのためのファンデーションモデルパイプラインは、精度の高い家畜飼育(PLF)の精度を高める一方で、GPUメモリ予算はコモディティエッジアクセラレーターのエンベロープを超えている。
このギャップを埋めるために、SAM 3の446Mパラメータ知覚エンコーダ(PE-ViT-L+)のバックボーンは、TinyViT-21M-512上に構築されたFeature Pyramid Networkの学生エンコーダ(Feature Pyramid Network student encoder)、4つの長期方向の蒸留損失、GPUメモリの成長を束縛するスライディングウィンドウセッションプルーニングによるバックボーン置換推論の3つのメカニズムにより、40.66Mパラメータのマルチスケールの学生に蒸留される。
DINOv3 ファミリーには、6716Mパラメーターの ViT-7B 教師と共に放出される、蒸留済みの ViT-S/16 変種 (21.6M パラメータ) が含まれており、ViT-S (21M) 変種は個別の埋め込み機として採用されている。
Edinburgh Pigデータセットでは、圧縮パイプラインはSAM 3の教師に対して92.29%のMOTAと96.15%のIDF1に達し(1.68ポイントと0.84ポイントの損失)、システムレベルのパラメータの7.77倍、ピークVRAM(19.52GB -> 6.49GB)の3.01倍、9クラスの豚の行動分類において97.34%のトップ1の精度で97.34%、マクロF1は91.67%に達する。
このパイプラインはNVIDIA Jetson Orin NX 16GBのエンベロープと4.9GBのヘッドルームに収まり、デバイス上の組込みプールを再識別するメカニズムをサポートする。
関連論文リスト
- EdgeSpike: Spiking Neural Networks for Low-Power Autonomous Sensing in Edge IoT Architectures [0.0]
EdgeSpikeは、エッジモノのインターネット(IoT)アーキテクチャにおける自律的低電力センシングのための、共同設計のスパイクニューラルネットワーク(SNN)フレームワークである。
ハイブリッドなサロゲートグレートとダイレクトエンコーディングのトレーニングパイプライン、ハードウェア対応のニューラルアーキテクチャサーチ、イベント駆動ランタイムを統一する。
強力なINT8畳み込みニューラルネットワーク(CNN)ベースラインの1.2ポイント(pp)以内の平均分類精度は91.4%である。
論文 参考訳(メタデータ) (2026-04-29T05:15:28Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
我々は神経科学モデルを統合した多層メモリアーキテクチャであるZenBrainを紹介する。
9つのアルゴリズムで編成された7つのメモリ層(作業層、短期層、エピソード層、意味層、手続き層、コア層、基礎層)を実装している。
LongMemEvalでは、ZenBrainはシステム審査員12人の中で最高位である。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation [82.87586897359367]
SpaCeFormerはプロポーザルフリーのスペースカーブトランスであり、1シーンあたり0.14秒で動作する。
SpaCeFormerは、以前のシングルビューパイプラインよりも21倍高いマスクリコールを実現している。
ScanNet200では、従来のベストプロポーザルフリーメソッドよりも2.8倍改善された11.1ゼロショットのmAPを実現しています。
論文 参考訳(メタデータ) (2026-04-22T09:57:57Z) - Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory [76.63021613850093]
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。
システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。
本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
論文 参考訳(メタデータ) (2026-04-01T15:06:23Z) - A Novel Compression Framework for YOLOv8: Achieving Real-Time Aerial Object Detection on Edge Devices via Structured Pruning and Channel-Wise Distillation [0.0]
YOLOv8オブジェクト検出モデルのための新しい3段階圧縮パイプラインを提案する。
スパシティ対応トレーニング、構造化チャネルプルーニング、CWD(Channel-Wise Knowledge Distillation)が使用されている。
VisDroneデータセットの実験では、複数のYOLOv8変種にまたがるアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-16T10:11:59Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。