論文の概要: Improving Ultrasound Tongue Image Reconstruction from Lip Images Using
Self-supervised Learning and Attention Mechanism
- arxiv url: http://arxiv.org/abs/2106.11769v1
- Date: Sun, 20 Jun 2021 10:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:02:14.667559
- Title: Improving Ultrasound Tongue Image Reconstruction from Lip Images Using
Self-supervised Learning and Attention Mechanism
- Title(参考訳): 自己教師付き学習と注意機構を用いた唇画像からの超音波舌画像再構成の改善
- Authors: Haiyang Liu, Jihan Zhang
- Abstract要約: 唇の観察可能な画像列が与えられたら、対応する舌の動きを画像化できますか。
本研究では,この問題を自己教師型学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用い,注意機構を組み込んだ。
以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,両者のマッチングが可能であることがわかった。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech production is a dynamic procedure, which involved multi human organs
including the tongue, jaw and lips. Modeling the dynamics of the vocal tract
deformation is a fundamental problem to understand the speech, which is the
most common way for human daily communication. Researchers employ several
sensory streams to describe the process simultaneously, which are
incontrovertibly statistically related to other streams. In this paper, we
address the following question: given an observable image sequences of lips,
can we picture the corresponding tongue motion. We formulated this problem as
the self-supervised learning problem, and employ the two-stream convolutional
network and long-short memory network for the learning task, with the attention
mechanism. We evaluate the performance of the proposed method by leveraging the
unlabeled lip videos to predict an upcoming ultrasound tongue image sequence.
The results show that our model is able to generate images that close to the
real ultrasound tongue images, and results in the matching between two imaging
modalities.
- Abstract(参考訳): 音声生成は、舌、顎、唇を含む複数の人間の器官を含むダイナミックな手順である。
声道変形のダイナミクスのモデル化は、人間の日常コミュニケーションの最も一般的な方法である音声を理解するための基本的な問題である。
研究者は複数の感覚の流れを使って同時にプロセスを記述する。
本稿では, 唇の観察可能な画像列が与えられた場合, 対応する舌の動きを画像化することができる。
本研究では,この問題を自己教師付き学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用いた。
提案手法の性能評価は,未ラベルのリップビデオを用いて,今後の超音波舌画像列の予測を行う。
以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,2つの画像モダリティの一致が得られた。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-01T20:59:46Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Self-supervised Contrastive Video-Speech Representation Learning for
Ultrasound [15.517484333872277]
医用画像では、手動のアノテーションは入手するのに高価であり、アクセスできないこともある。
本稿では,マルチモーダル超音波ビデオ音声生データを用いた自己教師型表現学習の課題に対処する。
論文 参考訳(メタデータ) (2020-08-14T23:58:23Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z) - Deep Learning for Automatic Tracking of Tongue Surface in Real-time
Ultrasound Videos, Landmarks instead of Contours [0.6853165736531939]
本稿では,ディープニューラルネットワークを用いた舌輪郭の自動追尾とリアルタイム舌輪郭追跡の新しい手法を提案する。
提案手法では,2段階の手順の代わりに舌表面のランドマークが追跡される。
本実験により,提案手法の卓越した性能を,一般化,性能,精度の観点から明らかにした。
論文 参考訳(メタデータ) (2020-03-16T00:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。