論文の概要: AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
- arxiv url: http://arxiv.org/abs/2407.20124v1
- Date: Mon, 29 Jul 2024 15:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 13:15:14.408883
- Title: AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
- Title(参考訳): AxiomVision:パースペクティブ・アウェア・ビデオ・アナリティクスのための精度保証型適応型視覚モデル選択
- Authors: Xiangxiang Dai, Zeyu Zhang, Peng Yang, Yuedong Xu, Xutong Liu, John C. S. Lui,
- Abstract要約: AxiomVisionは、多様なシナリオ下で、ビデオ分析のための最も効率的なビジュアルモデルを動的に選択するフレームワークである。
AxiomVisionは精度が25.7%向上した。
- 参考スコア(独自算出の注目度): 35.0547896867591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of multimedia and computer vision technologies requires adaptive visual model deployment strategies to effectively handle diverse tasks and varying environments. This work introduces AxiomVision, a novel framework that can guarantee accuracy by leveraging edge computing to dynamically select the most efficient visual models for video analytics under diverse scenarios. Utilizing a tiered edge-cloud architecture, AxiomVision enables the deployment of a broad spectrum of visual models, from lightweight to complex DNNs, that can be tailored to specific scenarios while considering camera source impacts. In addition, AxiomVision provides three core innovations: (1) a dynamic visual model selection mechanism utilizing continual online learning, (2) an efficient online method that efficiently takes into account the influence of the camera's perspective, and (3) a topology-driven grouping approach that accelerates the model selection process. With rigorous theoretical guarantees, these advancements provide a scalable and effective solution for visual tasks inherent to multimedia systems, such as object detection, classification, and counting. Empirically, AxiomVision achieves a 25.7\% improvement in accuracy.
- Abstract(参考訳): マルチメディアとコンピュータビジョン技術の急速な進化は、多様なタスクや様々な環境を効果的に扱うために適応的な視覚モデル展開戦略を必要とする。
AxiomVisionは、エッジコンピューティングを活用して、多様なシナリオ下でビデオ分析のための最も効率的なビジュアルモデルを動的に選択することで、精度を保証する新しいフレームワークである。
階層化されたエッジクラウドアーキテクチャを利用することで、AxiomVisionは、軽量なDNNから複雑なDNNまで、幅広いビジュアルモデルのデプロイを可能にする。
さらに、AxiomVisionは、(1)連続的なオンライン学習を利用した動的視覚モデル選択機構、(2)カメラの視点の影響を効果的に考慮した効率的なオンライン手法、(3)モデル選択プロセスを加速するトポロジ駆動型グループ化アプローチの3つの中心的イノベーションを提供する。
厳密な理論的保証により、これらの進歩は、オブジェクト検出、分類、カウントといったマルチメディアシステム固有の視覚的タスクに対して、スケーラブルで効果的なソリューションを提供する。
経験的に、AxiomVisionは精度が25.7%向上した。
関連論文リスト
- Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。
このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。
Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文 参考訳(メタデータ) (2024-11-15T20:21:59Z) - Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - UniVision: A Unified Framework for Vision-Centric 3D Perception [24.181610013329944]
視覚中心の3D知覚における2つの主要なタスクを統一する,シンプルで効率的なフレームワークであるUniVisionを提案する。
具体的には、補完的な2D-3D特徴変換のための明示的でシンプルなビュー変換モジュールを提案する。
本稿では,共同占有量検出データ強化戦略と進行損失量調整戦略を提案する。
論文 参考訳(メタデータ) (2024-01-13T06:43:25Z) - Learning visual-based deformable object rearrangement with local graph
neural networks [4.333220038316982]
本稿では,変形可能なオブジェクト状態とキーポイントの集合とその相互作用を効率的にモデル化できる新しい表現戦略を提案する。
また、変形可能な再配置ダイナミクスを共同でモデル化し、最適操作動作を推定するための光局所GNN学習を提案する。
本手法は, 各種変形可能なアレンジメントタスク(平均96.3%)において, シミュレーション実験における最先端手法よりもはるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2023-10-16T11:42:54Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。