論文の概要: Detecting speaking persons in video
- arxiv url: http://arxiv.org/abs/2110.13806v1
- Date: Mon, 25 Oct 2021 15:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 12:05:26.178770
- Title: Detecting speaking persons in video
- Title(参考訳): ビデオにおける発話者検出
- Authors: Hannes Fassold
- Abstract要約: 本稿では,ビデオ中の発話者を検出する新しい方法を提案する。
ニューラルネットワークで顔のランドマークを抽出し、時間とともに統計的にこれらのランドマークを分析する。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel method for detecting speaking persons in video, by
extracting facial landmarks with a neural network and analysing these landmarks
statistically over time
- Abstract(参考訳): 本稿では,表情のランドマークをニューラルネットワークで抽出し,これらのランドマークを時間とともに統計的に解析することにより,映像中の発話者を検出する新しい手法を提案する。
関連論文リスト
- Exploiting temporal information to detect conversational groups in videos and predict the next speaker [2.7981106665946944]
本稿では,ビデオシーケンス中のF生成を検出し,グループ会話における次の話者を予測することを目的とする。
私たちは、グループに属する人のエンゲージメントレベルを測定することに依存しています。
MatchNMingleデータセットの実験では、グループ検出では85%正の正が、次の話者の予測では98%の精度が得られた。
論文 参考訳(メタデータ) (2024-08-29T09:41:36Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - VideoForensicsHQ: Detecting High-quality Manipulated Face Videos [77.60295082172098]
偽造検知器の性能は、人間の目で見られる人工物の存在にどのように依存するかを示す。
前例のない品質の顔ビデオ偽造検出のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-05-20T21:17:43Z) - Detecting Forged Facial Videos using convolutional neural network [0.0]
我々は,より小さな(少ないパラメータで学習する)畳み込みニューラルネットワーク(CNN)を用いて,偽ビデオ検出のためのデータ駆動型アプローチを提案する。
提案手法の有効性を検証するため,FaceForensicsの公開データセットを用いて,フレームベースとビデオベースの両方の結果を詳細に検討した。
論文 参考訳(メタデータ) (2020-05-17T19:04:59Z) - Discovering Salient Anatomical Landmarks by Predicting Human Gaze [4.297988192695949]
医用画像中の解剖学的特徴を自動的に発見し,局所化する手法を提案する。
具体的には、人間の視覚的注意を引き付けるランドマークについて検討する。
得られたランドマークは, 胎児頭部長軸長の4.1%から10.9%の間で平均的なランドマークアライメント誤差を有するアフィン画像登録内で使用することができることを示す。
論文 参考訳(メタデータ) (2020-01-22T18:17:14Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。