論文の概要: Exploring Lip Segmentation Techniques in Computer Vision: A Comparative
Analysis
- arxiv url: http://arxiv.org/abs/2311.11992v1
- Date: Mon, 20 Nov 2023 18:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:24:07.271607
- Title: Exploring Lip Segmentation Techniques in Computer Vision: A Comparative
Analysis
- Title(参考訳): コンピュータビジョンにおける口唇分割法の検討:比較分析
- Authors: Pietro B. S. Masur and Francisco Braulio Oliveira and Lucas Moreira
Medino and Emanuel Huber and Milene Haraguchi Padilha and Cassio de Alcantara
and Renata Sellaro
- Abstract要約: 本研究の目的は,標準化された設定と公開データセットを用いて,最先端のリップセグメンテーションモデルを比較することである。
EHANet、Mask2Former、BiSeNet V2、PIDNet、STDC1の5つのテクニックは、報告されたパフォーマンス、推測時間、コード可用性、信頼性、人気度に基づいて定性的に選択される。
手動でアノテートされた顔画像からなるCelebAMask-HQデータセットは、選択したモデルの唇分割性能を正確に評価するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip segmentation is crucial in computer vision, especially for lip reading.
Despite extensive face segmentation research, lip segmentation has received
limited attention. The aim of this study is to compare state-of-the-art lip
segmentation models using a standardized setting and a publicly available
dataset. Five techniques, namely EHANet, Mask2Former, BiSeNet V2, PIDNet, and
STDC1, are qualitatively selected based on their reported performance,
inference time, code availability, recency, and popularity. The CelebAMask-HQ
dataset, comprising manually annotated face images, is used to fairly assess
the lip segmentation performance of the selected models. Inference experiments
are conducted on a Raspberry Pi4 to emulate limited computational resources.
The results show that Mask2Former and EHANet have the best performances in
terms of mIoU score. BiSeNet V2 demonstrate competitive performance, while
PIDNet excels in recall but has lower precision. Most models present inference
time ranging from 1000 to around 3000 milliseconds on a Raspberry Pi4, with
PIDNet having the lowest mean inference time. This study provides a
comprehensive evaluation of lip segmentation models, highlighting their
performance and inference times. The findings contribute to the development of
lightweight techniques and establish benchmarks for future advances in lip
segmentation, especially in IoT and edge computing scenarios.
- Abstract(参考訳): リップセグメンテーションはコンピュータビジョン、特にリップリーディングにおいて重要である。
顔のセグメンテーションの研究にもかかわらず、唇のセグメンテーションは注目されている。
本研究の目的は,標準設定と公開データセットを用いて,最先端のリップセグメンテーションモデルを比較することである。
EHANet、Mask2Former、BiSeNet V2、PIDNet、STDC1の5つのテクニックは、報告されたパフォーマンス、推測時間、コード可用性、信頼性、人気度に基づいて定性的に選択される。
手動アノテーション付き顔画像からなるcelebamask-hqデータセットを用いて、選択したモデルの唇セグメンテーション性能を適切に評価する。
限定された計算資源をエミュレートするためにraspberry pi4で推論実験を行う。
その結果, Mask2Former と EHANet はmIoU スコアで最高の性能を示した。
BiSeNet V2は競合性能を示し、PIDNetはリコール時に優れているが精度は低い。
ほとんどのモデルでは、raspberry pi4上で1000ミリ秒から約3000ミリ秒の推論時間があり、pidnetは平均推定時間が最も低い。
本研究は,リップセグメンテーションモデルの総合評価を行い,その性能と推測時間を明らかにする。
この発見は,特にIoTやエッジコンピューティングのシナリオにおいて,リップセグメンテーションの今後の進歩のための,軽量な技術開発とベンチマークの確立に寄与する。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンの分野で新しい研究の波をもたらした。
本稿では、iSAID上のリモートセンシング空中画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - BEVal: A Cross-dataset Evaluation Study of BEV Segmentation Models for Autonomous Driving [3.4113606473878386]
我々は最先端のBEVセグメンテーションモデルの包括的クロスデータセット評価を行う。
本稿では,カメラやLiDARなどの各種センサがモデルの一般化能力に与える影響について検討する。
論文 参考訳(メタデータ) (2024-08-29T07:49:31Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Scene Understanding for Autonomous Driving [0.0]
Detectron2で提示されたRetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の挙動を検討する。
関心のあるデータセット上でこれらのモデルを微調整した後、パフォーマンスの大幅な改善を観察します。
文脈外のデータセットを用いて異常な状況下で推論を行い、興味深い結果を示す。
論文 参考訳(メタデータ) (2021-05-11T09:50:05Z) - Learning to Fairly Classify the Quality of Wireless Links [0.5352699766206808]
本稿では,高性能な木質リンク品質分類器を提案し,マイノリティクラスを公平に分類する。
選択された不均衡データセット上で,木モデルとMLP非線形モデルと2つの線形モデル,すなわちロジスティック回帰(LR)とSVMを比較した。
本研究は,(1)非線形モデルが一般に線形モデルよりも若干優れていること,2)提案する非線形木ベースモデルが,f1,トレーニング時間,公平性を考慮した最高のパフォーマンストレードオフをもたらすこと,3)正確性のみに基づく単一メトリクス集約評価が貧弱であることを示す。
論文 参考訳(メタデータ) (2021-02-23T12:23:27Z) - Pairwise Relation Learning for Semi-supervised Gland Segmentation [90.45303394358493]
病理組織像における腺分節に対するPRS2モデルを提案する。
このモデルはセグメンテーションネットワーク(S-Net)とペア関係ネットワーク(PR-Net)から構成される。
我々は,GlaSデータセットの最近の5つの手法とCRAGデータセットの最近の3つの手法を比較した。
論文 参考訳(メタデータ) (2020-08-06T15:02:38Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。