論文の概要: Self-supervised Contrastive Video-Speech Representation Learning for
Ultrasound
- arxiv url: http://arxiv.org/abs/2008.06607v1
- Date: Fri, 14 Aug 2020 23:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:38:53.166143
- Title: Self-supervised Contrastive Video-Speech Representation Learning for
Ultrasound
- Title(参考訳): 超音波の自己教師付きコントラスト映像表現学習
- Authors: Jianbo Jiao, Yifan Cai, Mohammad Alsharid, Lior Drukker, Aris
T.Papageorghiou, and J. Alison Noble
- Abstract要約: 医用画像では、手動のアノテーションは入手するのに高価であり、アクセスできないこともある。
本稿では,マルチモーダル超音波ビデオ音声生データを用いた自己教師型表現学習の課題に対処する。
- 参考スコア(独自算出の注目度): 15.517484333872277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical imaging, manual annotations can be expensive to acquire and
sometimes infeasible to access, making conventional deep learning-based models
difficult to scale. As a result, it would be beneficial if useful
representations could be derived from raw data without the need for manual
annotations. In this paper, we propose to address the problem of
self-supervised representation learning with multi-modal ultrasound
video-speech raw data. For this case, we assume that there is a high
correlation between the ultrasound video and the corresponding narrative speech
audio of the sonographer. In order to learn meaningful representations, the
model needs to identify such correlation and at the same time understand the
underlying anatomical features. We designed a framework to model the
correspondence between video and audio without any kind of human annotations.
Within this framework, we introduce cross-modal contrastive learning and an
affinity-aware self-paced learning scheme to enhance correlation modelling.
Experimental evaluations on multi-modal fetal ultrasound video and audio show
that the proposed approach is able to learn strong representations and
transfers well to downstream tasks of standard plane detection and eye-gaze
prediction.
- Abstract(参考訳): 医用画像では手動のアノテーションは高価であり、アクセスできない場合もあるため、従来のディープラーニングベースのモデルでは拡張が困難である。
結果として、手動のアノテーションを必要とせずに、有用な表現を生のデータから引き出すことができれば有益である。
本稿では,マルチモーダル超音波映像合成生データを用いた自己教師あり表現学習の問題に対処する。
この場合、超音波映像とそれに対応するソノグラフィーの物語音声との間には高い相関関係があることを仮定する。
有意義な表現を学ぶために、モデルはそのような相関を識別すると同時に、基礎となる解剖学的特徴を理解する必要がある。
人間のアノテーションを使わずにビデオと音声の対応をモデル化するフレームワークを設計した。
本フレームワークでは,相関モデルを強化するために,クロスモーダルコントラスト学習と親和性を考慮した自己対応学習方式を導入する。
マルチモーダル超音波映像と音声による実験結果から, 提案手法は強い表現を学習し, 標準平面検出および視線予測の下流タスクによく対応できることが示された。
関連論文リスト
- Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match
vs. Mismatch Classification [28.186129896907694]
ビデオクリップが脳波信号の興奮応答を誘導するかどうかを分類する「マッチ-vs-mismatch」深層学習モデルを提案する。
提案手法は, 未知の被写体に対して最も精度の高いモデルを実現することができることを示す。
これらの結果は、ニューラル記録に基づくビデオ再構成の開発を促進する可能性がある。
論文 参考訳(メタデータ) (2023-09-08T06:37:25Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Improving Ultrasound Tongue Image Reconstruction from Lip Images Using
Self-supervised Learning and Attention Mechanism [1.52292571922932]
唇の観察可能な画像列が与えられたら、対応する舌の動きを画像化できますか。
本研究では,この問題を自己教師型学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用い,注意機構を組み込んだ。
以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,両者のマッチングが可能であることがわかった。
論文 参考訳(メタデータ) (2021-06-20T10:51:23Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z) - Self-supervised Representation Learning for Ultrasound Video [18.515314344284445]
本稿では,医用画像から有意義かつ伝達可能な表現を学習するための自己教師型学習手法を提案する。
我々は、データ自体から自由に監視することで、解剖学的タスクに対処するようモデルに強制する。
胎児超音波ビデオ実験により,提案手法が有意義で強い表現を効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2020-02-28T23:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。