Fugu-MT 論文翻訳(概要): AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

論文の概要: AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

arxiv url: http://arxiv.org/abs/2407.20124v2
Date: Tue, 30 Jul 2024 07:40:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 12:20:00.547263
Title: AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
Title（参考訳）: AxiomVision:パースペクティブ・アウェア・ビデオ・アナリティクスのための精度保証型適応型視覚モデル選択
Authors: Xiangxiang Dai, Zeyu Zhang, Peng Yang, Yuedong Xu, Xutong Liu, John C. S. Lui,
Abstract要約: AxiomVisionは、多様なシナリオ下で、ビデオ分析のための最も効率的なビジュアルモデルを動的に選択するフレームワークである。 AxiomVisionは精度が25.7%向上した。
参考スコア（独自算出の注目度）: 35.0547896867591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid evolution of multimedia and computer vision technologies requires adaptive visual model deployment strategies to effectively handle diverse tasks and varying environments. This work introduces AxiomVision, a novel framework that can guarantee accuracy by leveraging edge computing to dynamically select the most efficient visual models for video analytics under diverse scenarios. Utilizing a tiered edge-cloud architecture, AxiomVision enables the deployment of a broad spectrum of visual models, from lightweight to complex DNNs, that can be tailored to specific scenarios while considering camera source impacts. In addition, AxiomVision provides three core innovations: (1) a dynamic visual model selection mechanism utilizing continual online learning, (2) an efficient online method that efficiently takes into account the influence of the camera's perspective, and (3) a topology-driven grouping approach that accelerates the model selection process. With rigorous theoretical guarantees, these advancements provide a scalable and effective solution for visual tasks inherent to multimedia systems, such as object detection, classification, and counting. Empirically, AxiomVision achieves a 25.7\% improvement in accuracy.
Abstract（参考訳）: マルチメディアとコンピュータビジョン技術の急速な進化は、多様なタスクや様々な環境を効果的に扱うために適応的な視覚モデル展開戦略を必要とする。 AxiomVisionは、エッジコンピューティングを活用して、多様なシナリオ下でビデオ分析のための最も効率的なビジュアルモデルを動的に選択することで、精度を保証する新しいフレームワークである。階層化されたエッジクラウドアーキテクチャを利用することで、AxiomVisionは、軽量なDNNから複雑なDNNまで、幅広いビジュアルモデルのデプロイを可能にする。さらに、AxiomVisionは、(1)連続的なオンライン学習を利用した動的視覚モデル選択機構、(2)カメラの視点の影響を効果的に考慮した効率的なオンライン手法、(3)モデル選択プロセスを加速するトポロジ駆動型グループ化アプローチの3つの中心的イノベーションを提供する。厳密な理論的保証により、これらの進歩は、オブジェクト検出、分類、カウントといったマルチメディアシステム固有の視覚的タスクに対して、スケーラブルで効果的なソリューションを提供する。経験的に、AxiomVisionは精度が25.7%向上した。

関連論文リスト

Next Best View Selections for Semantic and Dynamic 3D Gaussian Splatting [33.577982244470796]
我々は、ビュー選択問題をアクティブな学習問題として定式化する。そこで本研究では,候補視点の有意性を定量化する能動的学習アルゴリズムを提案する。本手法は,大規模静的画像と動的ビデオデータセットを用いて評価する。
論文参考訳（メタデータ） (2025-12-28T04:19:25Z)
AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition [21.989922235835067]
AdaptVisionは、粗いアプローチによる適応的な視覚トークン取得を可能にする効率的なVLMパラダイムである。本稿では,AdaptVisionが最先端のVLM手法よりもはるかに少ない視覚トークンを消費し,優れた性能を実現することを示す。
論文参考訳（メタデータ） (2025-12-03T13:43:30Z)
DINOv3 [62.31809406012177]
自己教師型学習は、手動データアノテーションの必要性を排除し、巨大なデータセットやより大きなアーキテクチャにモデルを集中的にスケールできるようにするという約束を守ります。この技術レポートでは、シンプルだが効果的な戦略を活用することで、このビジョンを実現するための大きなマイルストーンであるDINOv3を紹介します。 DINOv3は高品位な高精細な特徴を生み出し、様々な視覚タスクにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2025-08-13T18:00:55Z)
FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文参考訳（メタデータ） (2025-06-20T07:46:40Z)
Contrastive Language-Image Learning with Augmented Textual Prompts for 3D/4D FER Using Vision-Language Model [19.091907959433073]
AffectVLMは3D/4Dデータから顔の感情を、意味的に豊かで視覚的に包括的に理解するために、多視点を統合した視覚言語モデルである。本稿では,モデル収束を最適な特徴表現へ加速する,新しい勾配に優しい損失関数と組み合わせた共同表現学習フレームワークを提案する。また、リアルタイム対話型推論のためのStreamlitアプリを開発し、分散学習のためのモデルを可能にします。
論文参考訳（メタデータ） (2025-04-28T12:36:14Z)
Graph-Driven Multimodal Feature Learning Framework for Apparent Personality Assessment [0.39945675027960637]
人格特性の自動予測は、コンピュータビジョンにおいて難しい問題となっている。本稿では,ショートビデオクリップにおけるパーソナリティ分析のための革新的なマルチモーダル特徴学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-15T14:26:12Z)
An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks [27.318182211122558]
本稿では,人間の知覚と複数のマシンビジョンのタスクに適した適応圧縮(EAC)手法を提案する。本手法は、人間の視覚の質を維持しつつ、複数のマシンビジョンタスクの性能を向上させる。
論文参考訳（メタデータ） (2025-01-08T08:03:49Z)
SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。 SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文参考訳（メタデータ） (2024-11-28T08:07:32Z)
Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。 VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。 Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文参考訳（メタデータ） (2024-11-19T11:03:09Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。 Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文参考訳（メタデータ） (2024-11-15T20:21:59Z)
Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。 OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文参考訳（メタデータ） (2024-04-18T12:41:33Z)
UniVision: A Unified Framework for Vision-Centric 3D Perception [24.181610013329944]
視覚中心の3D知覚における2つの主要なタスクを統一する,シンプルで効率的なフレームワークであるUniVisionを提案する。具体的には、補完的な2D-3D特徴変換のための明示的でシンプルなビュー変換モジュールを提案する。本稿では,共同占有量検出データ強化戦略と進行損失量調整戦略を提案する。
論文参考訳（メタデータ） (2024-01-13T06:43:25Z)
Learning visual-based deformable object rearrangement with local graph neural networks [4.333220038316982]
本稿では,変形可能なオブジェクト状態とキーポイントの集合とその相互作用を効率的にモデル化できる新しい表現戦略を提案する。また、変形可能な再配置ダイナミクスを共同でモデル化し、最適操作動作を推定するための光局所GNN学習を提案する。本手法は, 各種変形可能なアレンジメントタスク(平均96.3%)において, シミュレーション実験における最先端手法よりもはるかに高い成功率を達成する。
論文参考訳（メタデータ） (2023-10-16T11:42:54Z)
Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。 RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文参考訳（メタデータ） (2023-03-09T16:13:27Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)
Optimization-Inspired Learning with Architecture Augmentations and Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文参考訳（メタデータ） (2020-12-10T03:24:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。