論文の概要: Polymorph: Energy-Efficient Multi-Label Classification for Video Streams on Embedded Devices
- arxiv url: http://arxiv.org/abs/2507.14959v1
- Date: Sun, 20 Jul 2025 13:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.139993
- Title: Polymorph: Energy-Efficient Multi-Label Classification for Video Streams on Embedded Devices
- Title(参考訳): Polymorph: 組み込みデバイス上のビデオストリームのエネルギー効率の良いマルチラベル分類
- Authors: Saeid Ghafouri, Mohsen Fayyaz, Xiangchen Li, Deepu John, Bo Ji, Dimitrios Nikolopoulos, Hans Vandierendonck,
- Abstract要約: 組み込みデバイス上でのリアルタイムなマルチラベルビデオ分類は、計算とエネルギーの予算の制限によって制限される。
フレーム当たりの軽量低ランクアダプタ(LoRA)の最小セットを活性化するコンテキスト対応フレームワークであるPolymorphを紹介する。
ポリモルフィックはエネルギー消費を40%低減し、TAOデータセットの強いベースラインよりもmAPを9ポイント改善する。
- 参考スコア(独自算出の注目度): 13.96168883157171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time multi-label video classification on embedded devices is constrained by limited compute and energy budgets. Yet, video streams exhibit structural properties such as label sparsity, temporal continuity, and label co-occurrence that can be leveraged for more efficient inference. We introduce Polymorph, a context-aware framework that activates a minimal set of lightweight Low Rank Adapters (LoRA) per frame. Each adapter specializes in a subset of classes derived from co-occurrence patterns and is implemented as a LoRA weight over a shared backbone. At runtime, Polymorph dynamically selects and composes only the adapters needed to cover the active labels, avoiding full-model switching and weight merging. This modular strategy improves scalability while reducing latency and energy overhead. Polymorph achieves 40% lower energy consumption and improves mAP by 9 points over strong baselines on the TAO dataset. Polymorph is open source at https://github.com/inference-serving/polymorph/.
- Abstract(参考訳): 組み込みデバイス上でのリアルタイムなマルチラベルビデオ分類は、計算とエネルギーの予算の制限によって制限される。
しかし、ビデオストリームは、より効率的な推論に利用できるラベルの空間性、時間的連続性、ラベルの共起といった構造特性を示す。
フレーム当たりの軽量低ランクアダプタ(LoRA)の最小セットを活性化するコンテキスト対応フレームワークであるPolymorphを紹介する。
各アダプタは共起パターンから派生したクラスのサブセットを専門とし、共有バックボーン上のLoRA重みとして実装される。
実行時に、Polymorphはアクティブラベルをカバーするために必要なアダプタのみを動的に選択して構成する。
このモジュラ戦略は、レイテンシとエネルギーオーバーヘッドを低減しながらスケーラビリティを向上させる。
ポリモルフィックはエネルギー消費を40%低減し、TAOデータセットの強いベースラインよりもmAPを9ポイント改善する。
Polymorphはhttps://github.com/inference-serving/polymorph/.comでオープンソース公開されている。
関連論文リスト
- HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - LAPFormer: A Light and Accurate Polyp Segmentation Transformer [6.352264764099531]
我々は,階層型トランスフォーマーエンコーダを用いてグローバルな特徴を抽出する,LAPFormerというエンコーダデコーダアーキテクチャを用いた新しいモデルを提案する。
提案するデコーダは,高スケールおよび低スケールから特徴を融合するプログレッシブ・フィーチャー・フュージョン・モジュールを含む。
ポリープセグメンテーションのための5つの人気のあるベンチマークデータセット上で、我々のモデルを検証した。
論文 参考訳(メタデータ) (2022-10-10T01:52:30Z) - PowerGridworld: A Framework for Multi-Agent Reinforcement Learning in
Power Systems [6.782988908306483]
我々はPowerGridworldソフトウェアパッケージを紹介し、パワーシステムにフォーカスしたマルチエージェントGym環境を構築するための軽量でモジュール化されたカスタマイズ可能なフレームワークをユーザに提供します。
論文 参考訳(メタデータ) (2021-11-10T22:22:07Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - Multi-organ Segmentation over Partially Labeled Datasets with
Multi-scale Feature Abstraction [14.92032083210668]
完全な注釈付きデータセットの短縮は、ディープラーニングベースのイメージセグメンテーションアルゴリズムを開発する上で、制限要因となっている。
本稿では,新しいマルチスケールディープニューラルネットワークを複数の部分ラベル付きデータセット上でトレーニング可能な統合トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-01-01T13:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。