Fugu-MT 論文翻訳(概要): SAMEdge: An Edge-cloud Video Analytics Architecture for the Segment Anything Model

論文の概要: SAMEdge: An Edge-cloud Video Analytics Architecture for the Segment Anything Model

arxiv url: http://arxiv.org/abs/2409.14784v1
Date: Mon, 23 Sep 2024 07:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 21:01:15.853802
Title: SAMEdge: An Edge-cloud Video Analytics Architecture for the Segment Anything Model
Title（参考訳）: Madedge: セグメンテーションモデルのためのエッジクラウドビデオ分析アーキテクチャ
Authors: Rui Lu, Siping Shi, Yanting Liu, Dan Wang,
Abstract要約: エッジユーザのためのSAM計算をサポートするために設計された,新しいエッジクラウドコンピューティングアーキテクチャであるPamedgeを提案する。 Madedgeはエッジとクラウドの新たなモジュールを統合して、視覚的なプロンプト下での分析精度を最大化し、遅延制約のある入力プロンプトをイメージする。
参考スコア（独自算出の注目度）: 7.9748022315005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As artificial intelligence continues to evolve, it is increasingly capable of handling a wide range of video analytics tasks with merely one large model. One of the key foundation technologies is the Segment Anything Model (SAM), which allows the video analytics tasks to be determined on the fly according to the input prompts from the user. However, achieving real-time response in video analytics applications is crucial for user experiences due to the limited communication and computation resources on the edge, especially with SAM, where users may continuously interact by adding or adjusting prompts. In this paper, we propose SAMEdge, a novel edge-cloud computing architecture designed to support SAM computations for edge users. SAMEdge integrates new modules on the edge and the cloud to maximize analytics accuracy under visual prompts and image prompts input with latency constraints. It addresses resource challenges associated with prompt encoding and image encoding by offering a visual prompt transformation algorithm for visual prompts and efficient workload partitioning for image encoding. SAMEdge is implemented by extending the open-source SAM project from Meta AI. We demonstrate the practical application of SAMEdge through a case study on a Visual Tour Guide application. Our evaluation indicates that SAMEdge significantly enhances the accuracy of the video analytics application under distinct network bandwidths across various prompts.
Abstract（参考訳）: 人工知能が進化を続けるにつれ、単一の大きなモデルで幅広いビデオ分析タスクを処理できるようになる。主要な基盤技術のひとつであるSAM(Segment Anything Model)は、ユーザの入力プロンプトに従って、ビデオ分析タスクをリアルタイムで決定可能にするものだ。しかし、特にSAMでは、ユーザはプロンプトの追加や調整を連続的に行うことができるため、ビデオ分析アプリケーションにおけるリアルタイム応答の実現は、エッジ上での通信や計算リソースが限られているため、ユーザエクスペリエンスにとって不可欠である。本稿では,エッジユーザのためのSAM計算をサポートするために設計された,新しいエッジ・クラウド・コンピューティングアーキテクチャであるPamedgeを提案する。 Madedgeはエッジとクラウドの新たなモジュールを統合して、視覚的なプロンプト下での分析精度を最大化し、遅延制約のある入力プロンプトをイメージする。視覚的プロンプトのための視覚的プロンプト変換アルゴリズムと、画像エンコーディングのための効率的なワークロードパーティショニングを提供することにより、プロンプトエンコーディングとイメージエンコーディングに関連するリソース課題に対処する。 MadedgeはオープンソースのSAMプロジェクトをMeta AIから拡張することで実装されている。本稿では,Visual Tour Guide アプリケーションのケーススタディを通じて,Meetdge の実践的応用を実演する。評価の結果,Pamedgeは様々なプロンプトの異なるネットワーク帯域でビデオ解析アプリケーションの精度を著しく向上させることがわかった。

関連論文リスト

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文参考訳（メタデータ） (2025-04-16T13:41:59Z)
Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation [4.6570959687411975]
Segment Anything Model (SAM) は例外的な一般化能力を示す。 SAMは大規模なリモートセンシング画像の事前トレーニングを欠いているため、インタラクティブな構造は自動マスク予測能力を制限している。マルチ認知SAMベースインスタンスモデル (MC-SAM SEG) を導入し, リモートセンシング領域にSAMを採用する。 MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
論文参考訳（メタデータ） (2024-08-16T07:23:22Z)
Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文参考訳（メタデータ） (2024-08-08T09:09:37Z)
Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文参考訳（メタデータ） (2024-07-31T02:24:53Z)
AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文参考訳（メタデータ） (2024-06-01T16:21:39Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-03-07T03:52:59Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot [6.500451285898152]
本研究は,リモートセンシング画像解析におけるSegment Anything Model(SAM)の適用を推し進めることを目的としている。 SAMは例外的な一般化能力とゼロショット学習で知られている。空間分解能の低い画像で発生する限界にもかかわらず、SAMはリモートセンシングデータ解析に有望な適応性を示す。
論文参考訳（メタデータ） (2023-06-29T01:49:33Z)
A Comprehensive Survey on Segment Anything Model for Vision and Beyond [7.920790211915402]
幅広いデータに基づいて訓練された基礎モデルと呼ばれる、一般的なモデルのクラスを設計することは緊急である。最近提案されたセグメンテーションモデル(SAM)は、セグメンテーションの境界を破る大きな進歩を遂げた。本稿では,SAMを含む基礎モデルの背景と用語,およびSAMと同種の最先端手法について紹介する。
論文参考訳（メタデータ） (2023-05-14T16:23:22Z)
A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering [49.732628643634975]
Meta AI Researchが開発したSegment Anything Model (SAM)は、画像とビデオのセグメンテーションのための堅牢なフレームワークを提供する。このサーベイはSAMファミリーの包括的調査を提供し、SAMとSAM 2は粒度と文脈理解の進歩を強調している。
論文参考訳（メタデータ） (2023-05-12T07:21:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。