論文の概要: Egocentric Videoconferencing
- arxiv url: http://arxiv.org/abs/2107.03109v1
- Date: Wed, 7 Jul 2021 09:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:55:02.675015
- Title: Egocentric Videoconferencing
- Title(参考訳): エゴセントリックビデオ会議
- Authors: Mohamed Elgharib, Mohit Mendiratta, Justus Thies, Matthias
Nie{\ss}ner, Hans-Peter Seidel, Ayush Tewari, Vladislav Golyanik, Christian
Theobalt
- Abstract要約: ビデオ会議は、価値ある非言語コミュニケーションと表情の手がかりを描写するが、通常は前面カメラを必要とする。
本稿では、スマートグラスに統合可能な低コストのウェアラブルエゴセントリックカメラセットを提案する。
私たちのゴールは、古典的なビデオ通話を模倣することであり、それゆえ、私たちはこのカメラの自我中心の視点を前向きのビデオに変えます。
- 参考スコア(独自算出の注目度): 86.88092499544706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method for egocentric videoconferencing that enables
hands-free video calls, for instance by people wearing smart glasses or other
mixed-reality devices. Videoconferencing portrays valuable non-verbal
communication and face expression cues, but usually requires a front-facing
camera. Using a frontal camera in a hands-free setting when a person is on the
move is impractical. Even holding a mobile phone camera in the front of the
face while sitting for a long duration is not convenient. To overcome these
issues, we propose a low-cost wearable egocentric camera setup that can be
integrated into smart glasses. Our goal is to mimic a classical video call, and
therefore, we transform the egocentric perspective of this camera into a front
facing video. To this end, we employ a conditional generative adversarial
neural network that learns a transition from the highly distorted egocentric
views to frontal views common in videoconferencing. Our approach learns to
transfer expression details directly from the egocentric view without using a
complex intermediate parametric expressions model, as it is used by related
face reenactment methods. We successfully handle subtle expressions, not easily
captured by parametric blendshape-based solutions, e.g., tongue movement, eye
movements, eye blinking, strong expressions and depth varying movements. To get
control over the rigid head movements in the target view, we condition the
generator on synthetic renderings of a moving neutral face. This allows us to
synthesis results at different head poses. Our technique produces temporally
smooth video-realistic renderings in real-time using a video-to-video
translation network in conjunction with a temporal discriminator. We
demonstrate the improved capabilities of our technique by comparing against
related state-of-the art approaches.
- Abstract(参考訳): 本稿では,例えば,スマートグラスなどの複合現実感デバイスを用いて,ハンズフリーのビデオ通話を実現するエゴセントリックなビデオ会議手法を提案する。
ビデオ会議は、価値ある非言語コミュニケーションと表情の手がかりを描写するが、通常は前面カメラを必要とする。
人が動いているとき、ハンズフリーでフロントカメラを使うことは非現実的です。
長時間座っている間、顔の前に携帯電話のカメラを持っていても便利ではない。
これらの問題を克服するために、スマートグラスに統合可能な低コストのウェアラブル・エゴセントリックカメラセットを提案する。
私たちの目標は、古典的なビデオ通話を模倣することであり、それゆえ、このカメラのエゴセントリックな視点をフロントビデオに変換することです。
この目的のために,高度に歪んだ自己中心的視点からテレビ会議に共通する正面的視点への遷移を学習する条件付き生成型逆向ニューラルネットワークを用いる。
本手法は, 複雑な中間パラメトリック表現モデルを用いることなく, エゴセントリックな視点から表現の詳細を直接伝達することを目的としている。
舌運動,眼球運動,眼の瞬き,強い表情,奥行きの変動など,パラメトリックブレンドシェイプに基づくソリューションでは容易には捉えられない微妙な表現をうまく処理できた。
対象視界における剛体頭部の動きを制御するために,移動中性面の合成レンダリングにジェネレータを条件とした。
これにより、異なる頭部ポーズで結果を合成できる。
本手法は,時間的判別器を併用したビデオ対ビデオ翻訳ネットワークを用いて,リアルタイムに時間的にスムーズな映像実写レンダリングを実現する。
我々は, 関連する最先端技術との比較により, 技術の性能向上を実証する。
関連論文リスト
- Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Continuously Controllable Facial Expression Editing in Talking Face
Videos [34.83353695337335]
言語関連表現と感情関連表現はしばしば高結合である。
従来の画像から画像への変換手法は、我々のアプリケーションではうまく機能しない。
そこで本研究では,音声合成のための高品質な表情編集手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T09:05:47Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2020-07-16T18:13:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。