論文の概要: VisioFirm: Cross-Platform AI-assisted Annotation Tool for Computer Vision
- arxiv url: http://arxiv.org/abs/2509.04180v1
- Date: Thu, 04 Sep 2025 12:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.163467
- Title: VisioFirm: Cross-Platform AI-assisted Annotation Tool for Computer Vision
- Title(参考訳): VisioFirm: コンピュータビジョンのためのクロスプラットフォームAI支援アノテーションツール
- Authors: Safouane El Ghazouali, Umberto Michelucci,
- Abstract要約: COCO-Firmは、AIアシスト自動化によるイメージラベリングの合理化を目的とした、オープンソースのWebアプリケーションである。
Coco-Firmは、最先端のファンデーションモデルとフィルタリングパイプラインとのインターフェースを統合して、人間のループへの取り組みを減らす。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI models rely on annotated data to learn pattern and perform prediction. Annotation is usually a labor-intensive step that require associating labels ranging from a simple classification label to more complex tasks such as object detection, oriented bounding box estimation, and instance segmentation. Traditional tools often require extensive manual input, limiting scalability for large datasets. To address this, we introduce VisioFirm, an open-source web application designed to streamline image labeling through AI-assisted automation. VisioFirm integrates state-of-the-art foundation models into an interface with a filtering pipeline to reduce human-in-the-loop efforts. This hybrid approach employs CLIP combined with pre-trained detectors like Ultralytics models for common classes and zero-shot models such as Grounding DINO for custom labels, generating initial annotations with low-confidence thresholding to maximize recall. Through this framework, when tested on COCO-type of classes, initial prediction have been proven to be mostly correct though the users can refine these via interactive tools supporting bounding boxes, oriented bounding boxes, and polygons. Additionally, VisioFirm has on-the-fly segmentation powered by Segment Anything accelerated through WebGPU for browser-side efficiency. The tool supports multiple export formats (YOLO, COCO, Pascal VOC, CSV) and operates offline after model caching, enhancing accessibility. VisioFirm demonstrates up to 90\% reduction in manual effort through benchmarks on diverse datasets, while maintaining high annotation accuracy via clustering of connected CLIP-based disambiguate components and IoU-graph for redundant detection suppression. VisioFirm can be accessed from \href{https://github.com/OschAI/VisioFirm}{https://github.com/OschAI/VisioFirm}.
- Abstract(参考訳): AIモデルは、パターンを学び、予測を実行するためにアノテーション付きデータに依存している。
アノテーションは通常、単純な分類ラベルから、オブジェクト検出、指向的境界ボックス推定、インスタンスセグメンテーションといったより複雑なタスクまで、ラベルを関連づける作業集約的なステップである。
従来のツールは、大規模なデータセットのスケーラビリティを制限するために、広範囲な手入力を必要とすることが多い。
この問題を解決するために、AI支援自動化による画像ラベリングの合理化を目的としたオープンソースのWebアプリケーションであるVisioFirmを紹介した。
VisioFirmは、最先端のファンデーションモデルとフィルタリングパイプラインとのインターフェースを統合して、人間のループへの取り組みを減らす。
このハイブリッドアプローチでは、Ultralyticsモデルのようなトレーニング済みの検出器とカスタムラベルのGrounding DINOのようなゼロショットモデルを組み合わせたCLIPを使用して、リコールを最大化する低信頼しきい値付き初期アノテーションを生成する。
このフレームワークを通じて、COCOタイプのクラスでテストすると、最初の予測はほとんど正しいことが証明されているが、ユーザはバウンディングボックス、向き付けられたバウンディングボックス、ポリゴンをサポートするインタラクティブツールでそれらを洗練することができる。
さらに、VisioFirmはブラウザサイドの効率のためにWebGPUによって加速されるSegment Anythingをベースとしたオンザフライセグメンテーションを備えている。
このツールは、複数のエクスポートフォーマット(YOLO、COCO、Pascal VOC、CSV)をサポートし、モデルキャッシング後にオフラインで動作し、アクセシビリティを向上させる。
VisioFirmは、さまざまなデータセットのベンチマークによる手作業の最大90%削減を実証すると同時に、接続されたCLIPベースの曖昧なコンポーネントと、冗長な検出抑制のためのIoUグラフのクラスタリングを通じて、高いアノテーションの精度を維持している。
VisioFirmは、 \href{https://github.com/OschAI/VisioFirm}{https://github.com/OschAI/VisioFirm}からアクセスできる。
関連論文リスト
- Graph Attention Neural Network for Botnet Detection: Evaluating Autoencoder, VAE and PCA-Based Dimension Reduction [0.0]
グラフニューラルネットワーク(GNN)は、反復的なメッセージパッシングを通じて埋め込み空間を学習することで、この制限に対処する。
本稿では,まずNetFlowベースのIoTアタックデータセットの次元性を低減し,グラフデータセットに変換するフレームワークを提案する。
可変オートエンコーダ(VAEエンコーダ)、古典的オートエンコーダ(AEエンコーダ)、主成分分析(PCA)の3次元化技術を評価する。
論文 参考訳(メタデータ) (2025-05-23T00:22:14Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
ビジョントランスフォーマー(ViT)は、イメージパッチ間の複雑なパターンと長距離依存関係をキャプチャするために自己アテンションを活用することで、イメージ分類を再定義している。
ViTsの重要な課題は、階層構造を通じて畳み込みニューラルネットワーク(CNN)に固有のマルチスケールの特徴表現を効率的に組み込むことである。
我々は、CNNのマルチスケール機能、ViTの表現力、グラフ付きパッチ機能を統合し、よりリッチなコンテキスト表現を可能にするスケールアウェアグラフ注意型ViTであるSAG-ViTを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである
本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。
私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-05-05T19:10:19Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。