論文の概要: OXSeg: Multidimensional attention UNet-based lip segmentation using semi-supervised lip contours
- arxiv url: http://arxiv.org/abs/2505.05531v1
- Date: Thu, 08 May 2025 14:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.021386
- Title: OXSeg: Multidimensional attention UNet-based lip segmentation using semi-supervised lip contours
- Title(参考訳): OXSeg: 半教師付き唇輪郭を用いた多次元注意UNetによる唇分割
- Authors: Hanie Moghaddasi, Christina Chambers, Sarah N. Mattson, Jeffrey R. Wozniak, Claire D. Coles, Raja Mukherjee, Michael Suttie,
- Abstract要約: 指導下唇分節の有効性は,訓練段階における唇輪郭の有効性によって制限される。
リップセグメンテーションのさらなる課題は、画像の品質、照明、皮膚のトーンへの依存であり、検出された境界における不正確な結果をもたらす。
注意UNetと多次元入力を統合した逐次唇分割法を提案する。
- 参考スコア(独自算出の注目度): 0.4711628883579317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip segmentation plays a crucial role in various domains, such as lip synchronization, lipreading, and diagnostics. However, the effectiveness of supervised lip segmentation is constrained by the availability of lip contour in the training phase. A further challenge with lip segmentation is its reliance on image quality , lighting, and skin tone, leading to inaccuracies in the detected boundaries. To address these challenges, we propose a sequential lip segmentation method that integrates attention UNet and multidimensional input. We unravel the micro-patterns in facial images using local binary patterns to build multidimensional inputs. Subsequently, the multidimensional inputs are fed into sequential attention UNets, where the lip contour is reconstructed. We introduce a mask generation method that uses a few anatomical landmarks and estimates the complete lip contour to improve segmentation accuracy. This mask has been utilized in the training phase for lip segmentation. To evaluate the proposed method, we use facial images to segment the upper lips and subsequently assess lip-related facial anomalies in subjects with fetal alcohol syndrome (FAS). Using the proposed lip segmentation method, we achieved a mean dice score of 84.75%, and a mean pixel accuracy of 99.77% in upper lip segmentation. To further evaluate the method, we implemented classifiers to identify those with FAS. Using a generative adversarial network (GAN), we reached an accuracy of 98.55% in identifying FAS in one of the study populations. This method could be used to improve lip segmentation accuracy, especially around Cupid's bow, and shed light on distinct lip-related characteristics of FAS.
- Abstract(参考訳): リップセグメンテーションは、リップ同期、リップレディング、診断など、様々な領域において重要な役割を果たしている。
しかし, 指導下唇分節の有効性は, 訓練段階における唇輪郭の有効性によって制限される。
リップセグメンテーションのさらなる課題は、画像品質、照明、皮膚のトーンへの依存であり、検出された境界における不正確な結果をもたらす。
これらの課題に対処するために,注意UNetと多次元入力を統合した逐次唇分割法を提案する。
多次元インプットを構築するために、局所的なバイナリーパターンを用いて顔画像のマイクロパターンを明らかにする。
その後、多次元入力を順次注目ユニセットに入力し、唇輪郭を再構成する。
数個の解剖学的ランドマークを用いたマスク生成法を導入し,完全な唇輪郭を推定してセグメンテーション精度を向上する。
このマスクは、リップセグメンテーションのトレーニング段階で使用されている。
提案法の評価には, 顔面画像を用いて上唇の分画を行い, その後, 胎児アルコール症候群 (FAS) 患者の唇関連顔面異常について検討した。
提案法を用いて, 平均ディススコアは84.75%, 平均ピクセル精度は99.77%であった。
提案手法を更に評価するために,FAS を識別する分類器を実装した。
GAN(Generative Adversarial Network)を用いて, 調査個体群中のFASの同定精度は98.55%に達した。
この方法は,特にキューピッドの弓周囲の唇分割精度の向上に有効であり,FASの唇関連特性に光を当てることができた。
関連論文リスト
- PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - FlowSDF: Flow Matching for Medical Image Segmentation Using Distance Transforms [60.195642571004804]
本稿では,セグメンテーションマスクの暗黙分布を表現するために,画像誘導型条件付きフローマッチングフレームワークであるFlowSDFを紹介する。
本フレームワークは,セグメンテーションマスクの正確なサンプリングと関連する統計指標の計算を可能にする。
論文 参考訳(メタデータ) (2024-05-28T11:47:12Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Processing and Segmentation of Human Teeth from 2D Images using Weakly
Supervised Learning [1.6385815610837167]
そこで本研究では,手動アノテーションの必要性を低減するために,歯のセグメンテーションに対する弱教師付きアプローチを提案する。
本手法は,キーポイント検出ネットワークからの出力ヒートマップと中間特徴マップを用いて,セグメント化プロセスの導出を行う。
本手法は, 実際の歯科応用において, 歯のセグメンテーションに費用対効果, 効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2023-11-13T15:25:55Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z) - CUTS: A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation [8.307551496968156]
医用画像セグメンテーションのための教師なしディープラーニングフレームワークCUTSを提案する。
各画像に対して、画像内コントラスト学習と局所パッチ再構成による埋め込みマップを生成する。
CUTSは、様々な粒度の特徴をハイライトする粗い粒度のセグメンテーションを連続的に生成する。
論文 参考訳(メタデータ) (2022-09-23T01:09:06Z) - Is Lip Region-of-Interest Sufficient for Lipreading? [24.294559985408192]
自己教師型学習によるリップリーディングに顔全体を採用することを提案する。
AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。
論文 参考訳(メタデータ) (2022-05-28T01:34:24Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Post-DAE: Anatomically Plausible Segmentation via Post-Processing with
Denoising Autoencoders [19.361024564220454]
Post-DAEは自動エンコーダ (DAE) に基づく後処理法である
本稿では, Post-DAE を用いて, 誤りとノイズのセグメンテーションマスクをいかに改善できるかを示す。
論文 参考訳(メタデータ) (2020-06-24T15:05:03Z) - Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep
Visual Speech Recognition [90.61063126619182]
我々は、最先端の音声認識モデルを用いて、異なる顔領域の効果を評価する。
口腔外顔面領域からの情報、上面でさえも、常にVSRの性能に寄与することが判明した。
論文 参考訳(メタデータ) (2020-03-06T13:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。