論文の概要: D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment
- arxiv url: http://arxiv.org/abs/2602.23043v1
- Date: Thu, 26 Feb 2026 14:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.720217
- Title: D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment
- Title(参考訳): D-FINE-seg:マルチバックエンドデプロイメントによるオブジェクト検出とインスタンスセグメンテーションフレームワーク
- Authors: Argo Saakyan, Dmitry Solntsev,
- Abstract要約: D-FINE-セグ(D-FINE-seg)は、D-FINEのインスタンスセグメンテーション拡張で、軽量マスクヘッド、ボックストリミングされたBCEとダイスマスクの損失を含むセグメンテーション対応のトレーニング、補助マスクの監視と装飾マスクの監視、ハンガリーの適合コストの追加。
データセット上では、D-FINE-segは競合レイテンシを維持しながら、統合されたFP16エンドツーエンドベンチマークプロトコルの下で、Ultralytics YOLO26よりもF1スコアを改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based real-time object detectors achieve strong accuracy-latency trade-offs, and D-FINE is among the top-performing recent architectures. However, real-time instance segmentation with transformers is still less common. We present D-FINE-seg, an instance segmentation extension of D-FINE that adds: a lightweight mask head, segmentation-aware training, including box cropped BCE and dice mask losses, auxiliary and denoising mask supervision, and adapted Hungarian matching cost. On the TACO dataset, D-FINE-seg improves F1-score over Ultralytics YOLO26 under a unified TensorRT FP16 end-to-end benchmarking protocol, while maintaining competitive latency. Second contribution is an end-to-end pipeline for training, exporting, and optimized inference across ONNX, TensorRT, OpenVINO for both object detection and instance segmentation tasks. This framework is released as open-source under the Apache-2.0 license. GitHub repository - https://github.com/ArgoHA/D-FINE-seg.
- Abstract(参考訳): トランスフォーマーをベースとしたリアルタイムオブジェクト検出器は、高い精度とレイテンシのトレードオフを実現し、D-FINEは最近のアーキテクチャの中でも最もパフォーマンスの高いものの一つである。
しかし、トランスを用いたリアルタイムインスタンスセグメンテーションは、まだ一般的ではない。
本稿では,D-FINEのインスタンスセグメンテーション拡張であるD-FINE-segについて述べる。軽量マスクヘッド,ボックストリミングBCEを含むセグメンテーション・アウェアトレーニング,ダイスマスクの損失,補助マスク監視,適応型ハンガリーマッチングコスト。
TACOデータセットでは、D-FINE-segは競合レイテンシを維持しながら、TensorRT FP16エンドツーエンドのベンチマークプロトコルの統合の下で、Ultralytics YOLO26上でF1スコアを改善している。
第2のコントリビューションは、ONNX、TensorRT、OpenVINOをまたいだトレーニング、エクスポート、最適化された推論のためのエンドツーエンドパイプラインである。
このフレームワークはApache-2.0ライセンスの下でオープンソースとしてリリースされている。
GitHubリポジトリ - https://github.com/ArgoHA/D-FINE-seg.org
関連論文リスト
- Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head [23.472634293569463]
新しいトランスフォーマーベースのリアルタイムOVDモデルは、OmDetやGrounding-DINOで観測されるボトルネックを軽減するために設計された、革新的なEfficient Fusion Head (EFH)モジュールを備えている。
OmDet-Turboは、現在の最先端の教師付きモデルとほぼ同等のパフォーマンスレベルを達成する。
論文 参考訳(メタデータ) (2024-03-11T16:48:25Z) - PWISeg: Point-based Weakly-supervised Instance Segmentation for Surgical
Instruments [27.89003436883652]
我々はPWISeg (Point-based Weakly-supervised Instance) という,弱制御型手術器具セグメンテーション手法を提案する。
PWISegは、特徴点とバウンディングボックスの関係をモデル化するために、ポイント・ツー・ボックスとポイント・ツー・マスクのブランチを備えたFCNベースのアーキテクチャを採用している。
そこで本研究では,キー・ツー・マスク・ブランチを駆動し,より正確なセグメンテーション予測を生成するキー・ピクセル・アソシエーション・ロスとキー・ピクセル・アソシエーション・ロスを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:48:29Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - SOIT: Segmenting Objects with Instance-Aware Transformers [16.234574932216855]
本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。
提案手法では,インスタンスのセグメンテーションを直接セット予測問題とみなし,多数の手作り部品の必要性を効果的に除去する。
MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-21T08:23:22Z) - ISTR: End-to-End Instance Segmentation with Transformers [147.14073165997846]
ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-05-03T06:00:09Z) - End-to-End Object Detection with Fully Convolutional Network [71.56728221604158]
エンドツーエンド検出を実現するために,分類のための予測対応ワン・ツー・ワン (POTO) ラベルの割り当てを導入する。
局所領域における畳み込みの判別性を向上させるために, 簡易な3次元maxフィルタ(3dmf)を提案する。
エンドツーエンドのフレームワークは,COCOおよびCrowdHumanデータセット上のNMSを用いて,最先端の多くの検出器と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-07T09:14:55Z) - FCOS: A simple and strong anchor-free object detector [111.87691210818194]
物体検出を画素ごとの予測方式で解くために, 完全畳み込み型一段物検出器 (FCOS) を提案する。
RetinaNet、SSD、YOLOv3、Faster R-CNNといった最先端のオブジェクト検出器のほとんどは、事前に定義されたアンカーボックスに依存している。
対照的に、提案した検出器FCOSはアンカーボックスフリーであり、提案はフリーである。
論文 参考訳(メタデータ) (2020-06-14T01:03:39Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。