論文の概要: AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
- arxiv url: http://arxiv.org/abs/2407.20124v2
- Date: Tue, 30 Jul 2024 07:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:20:00.547263
- Title: AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
- Title(参考訳): AxiomVision:パースペクティブ・アウェア・ビデオ・アナリティクスのための精度保証型適応型視覚モデル選択
- Authors: Xiangxiang Dai, Zeyu Zhang, Peng Yang, Yuedong Xu, Xutong Liu, John C. S. Lui,
- Abstract要約: AxiomVisionは、多様なシナリオ下で、ビデオ分析のための最も効率的なビジュアルモデルを動的に選択するフレームワークである。
AxiomVisionは精度が25.7%向上した。
- 参考スコア(独自算出の注目度): 35.0547896867591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of multimedia and computer vision technologies requires adaptive visual model deployment strategies to effectively handle diverse tasks and varying environments. This work introduces AxiomVision, a novel framework that can guarantee accuracy by leveraging edge computing to dynamically select the most efficient visual models for video analytics under diverse scenarios. Utilizing a tiered edge-cloud architecture, AxiomVision enables the deployment of a broad spectrum of visual models, from lightweight to complex DNNs, that can be tailored to specific scenarios while considering camera source impacts. In addition, AxiomVision provides three core innovations: (1) a dynamic visual model selection mechanism utilizing continual online learning, (2) an efficient online method that efficiently takes into account the influence of the camera's perspective, and (3) a topology-driven grouping approach that accelerates the model selection process. With rigorous theoretical guarantees, these advancements provide a scalable and effective solution for visual tasks inherent to multimedia systems, such as object detection, classification, and counting. Empirically, AxiomVision achieves a 25.7\% improvement in accuracy.
- Abstract(参考訳): マルチメディアとコンピュータビジョン技術の急速な進化は、多様なタスクや様々な環境を効果的に扱うために適応的な視覚モデル展開戦略を必要とする。
AxiomVisionは、エッジコンピューティングを活用して、多様なシナリオ下でビデオ分析のための最も効率的なビジュアルモデルを動的に選択することで、精度を保証する新しいフレームワークである。
階層化されたエッジクラウドアーキテクチャを利用することで、AxiomVisionは、軽量なDNNから複雑なDNNまで、幅広いビジュアルモデルのデプロイを可能にする。
さらに、AxiomVisionは、(1)連続的なオンライン学習を利用した動的視覚モデル選択機構、(2)カメラの視点の影響を効果的に考慮した効率的なオンライン手法、(3)モデル選択プロセスを加速するトポロジ駆動型グループ化アプローチの3つの中心的イノベーションを提供する。
厳密な理論的保証により、これらの進歩は、オブジェクト検出、分類、カウントといったマルチメディアシステム固有の視覚的タスクに対して、スケーラブルで効果的なソリューションを提供する。
経験的に、AxiomVisionは精度が25.7%向上した。
関連論文リスト
- Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。
We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文 参考訳(メタデータ) (2024-03-07T21:34:40Z) - UniVision: A Unified Framework for Vision-Centric 3D Perception [24.181610013329944]
視覚中心の3D知覚における2つの主要なタスクを統一する,シンプルで効率的なフレームワークであるUniVisionを提案する。
具体的には、補完的な2D-3D特徴変換のための明示的でシンプルなビュー変換モジュールを提案する。
本稿では,共同占有量検出データ強化戦略と進行損失量調整戦略を提案する。
論文 参考訳(メタデータ) (2024-01-13T06:43:25Z) - Learning visual-based deformable object rearrangement with local graph
neural networks [4.333220038316982]
本稿では,変形可能なオブジェクト状態とキーポイントの集合とその相互作用を効率的にモデル化できる新しい表現戦略を提案する。
また、変形可能な再配置ダイナミクスを共同でモデル化し、最適操作動作を推定するための光局所GNN学習を提案する。
本手法は, 各種変形可能なアレンジメントタスク(平均96.3%)において, シミュレーション実験における最先端手法よりもはるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2023-10-16T11:42:54Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。