論文の概要: SAMannot: A Memory-Efficient, Local, Open-source Framework for Interactive Video Instance Segmentation based on SAM2
- arxiv url: http://arxiv.org/abs/2601.11301v2
- Date: Mon, 19 Jan 2026 14:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 18:45:13.565216
- Title: SAMannot: A Memory-Efficient, Local, Open-source Framework for Interactive Video Instance Segmentation based on SAM2
- Title(参考訳): SAMannot:SAM2に基づくインタラクティブビデオインスタンスセグメンテーションのためのメモリ効率の良いローカルオープンソースフレームワーク
- Authors: Gergely Dinya, András Gelencsér, Krisztina Kupán, Clemens Küpper, Kristóf Karacs, Anna Gelencsér-Horváth,
- Abstract要約: 私たちは、Segment Anything Model 2 (SAM2) をヒューマン・イン・ザ・ループのワークフローに統合するオープンソースのローカルフレームワークであるSAMannotを紹介します。
主要な機能としては、永続的なインスタンスアイデンティティ管理、バリアフレームを備えた自動ロック・アンド・リファイン'ワークフロー、マスクスケトン化ベースの自動プロンプト機構などがある。
- 参考スコア(独自算出の注目度): 0.12314765641075437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research workflows for precise video segmentation are often forced into a compromise between labor-intensive manual curation, costly commercial platforms, and/or privacy-compromising cloud-based services. The demand for high-fidelity video instance segmentation in research is often hindered by the bottleneck of manual annotation and the privacy concerns of cloud-based tools. We present SAMannot, an open-source, local framework that integrates the Segment Anything Model 2 (SAM2) into a human-in-the-loop workflow. To address the high resource requirements of foundation models, we modified the SAM2 dependency and implemented a processing layer that minimizes computational overhead and maximizes throughput, ensuring a highly responsive user interface. Key features include persistent instance identity management, an automated ``lock-and-refine'' workflow with barrier frames, and a mask-skeletonization-based auto-prompting mechanism. SAMannot facilitates the generation of research-ready datasets in YOLO and PNG formats alongside structured interaction logs. Verified through animal behavior tracking use-cases and subsets of the LVOS and DAVIS benchmark datasets, the tool provides a scalable, private, and cost-effective alternative to commercial platforms for complex video annotation tasks.
- Abstract(参考訳): 正確なビデオセグメンテーションのための現在の研究ワークフローは、労働集約的なマニュアルキュレーション、高価な商用プラットフォーム、および/またはクラウドベースのサービスの間の妥協を余儀なくされることが多い。
研究における高忠実度ビデオインスタンスセグメンテーションの需要は、手動アノテーションのボトルネックとクラウドベースのツールのプライバシー上の懸念によってしばしば妨げられる。
私たちは、Segment Anything Model 2 (SAM2) をヒューマン・イン・ザ・ループのワークフローに統合するオープンソースのローカルフレームワークであるSAMannotを紹介します。
基礎モデルの高リソース要求に対処するため,SAM2依存性を修正し,計算オーバーヘッドを最小化し,スループットを最大化し,応答性の高いユーザインタフェースを実現する処理層を実装した。
主要な機能としては、永続化インスタンスのアイデンティティ管理、バリアフレームを備えた‘lock-and-refine’自動化ワークフロー、マスクスケトン化ベースの自動プロンプト機構などがある。
SAMannotは、構造化されたインタラクションログとともに、YOLOおよびPNGフォーマットでリサーチ対応データセットの生成を容易にする。
動物行動追跡のユースケースと、LVOSとDAVISベンチマークデータセットのサブセットによって検証されたこのツールは、複雑なビデオアノテーションタスクのための商用プラットフォームに代わる、スケーラブルでプライベートで費用対効果の高い代替手段を提供する。
関連論文リスト
- SAM2Auto: Auto Annotation Using FLASH [13.638155035372835]
VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。
SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。
本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
論文 参考訳(メタデータ) (2025-06-09T15:15:15Z) - DPO Learning with LLMs-Judge Signal for Computer Use Agents [9.454381108993832]
コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インタフェース(GUI)と自動的に対話してタスクを完了させるシステムである。
ローカルマシン上で完全に動作する軽量な視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2025-06-03T17:27:04Z) - SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation [4.166500345728911]
ビデオオブジェクトの参照(RVOS)は、ビデオクリップ内のオブジェクトをセグメントする自然言語表現に依存する。
私たちは、堅牢なセグメンテーションとトラッキング機能を提供するSegment-Anything 2 (SAM2)モデルを構築します。
本稿では,特徴抽出プロセスにおいて,時間的情報やマルチモーダルな手がかりを注入する新しいアダプタモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T18:10:54Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable Trajectory Generation [6.032808648673282]
LfOパラダイム(Learning-from-observation、LfO)は、ロボットが実行されているのを見るだけでタスクを実行することを学ぶための、人間にインスパイアされたモードである。
タスクアクティビティの複数の視点を認識できるように,SA-Netモデルを一般化したマルチビューSA-Netを提案する。
論文 参考訳(メタデータ) (2023-11-14T18:53:28Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。