論文の概要: LiveNeRF: Efficient Face Replacement Through Neural Radiance Fields Integration
- arxiv url: http://arxiv.org/abs/2511.07552v1
- Date: Wed, 12 Nov 2025 01:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.380262
- Title: LiveNeRF: Efficient Face Replacement Through Neural Radiance Fields Integration
- Title(参考訳): LiveNeRF: ニューラルネットワークフィールドの統合による効率的な顔置換
- Authors: Tung Vu, Hai Nguyen, Cong Tran,
- Abstract要約: 顔交換技術は、エンターテイメント、教育、コミュニケーションの応用において大きな進歩をもたらす。
我々のLiveNeRFフレームワークは、視覚的品質の優れたリアルタイムパフォーマンス(33 FPS)を実現することで、既存の手法の限界に対処する。
- 参考スコア(独自算出の注目度): 6.150970359045875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face replacement technology enables significant advancements in entertainment, education, and communication applications, including dubbing, virtual avatars, and cross-cultural content adaptation. Our LiveNeRF framework addresses critical limitations of existing methods by achieving real-time performance (33 FPS) with superior visual quality, enabling practical deployment in live streaming, video conferencing, and interactive media. The technology particularly benefits content creators, educators, and individuals with speech impairments through accessible avatar communication. While acknowledging potential misuse in unauthorized deepfake creation, we advocate for responsible deployment with user consent verification and integration with detection systems to ensure positive societal impact while minimizing risks.
- Abstract(参考訳): 顔交換技術は、ダビング、仮想アバター、異文化間のコンテンツ適応など、エンターテイメント、教育、コミュニケーションアプリケーションにおいて大きな進歩を可能にする。
我々のLiveNeRFフレームワークは、リアルタイムパフォーマンス(33 FPS)を優れた視覚的品質で達成し、ライブストリーミング、ビデオ会議、インタラクティブメディアに実用的な展開を可能にすることで、既存の手法の限界に対処する。
この技術は、コンテンツ制作者、教育者、およびアクセシブルアバター通信を通じて音声障害を持つ個人に特に恩恵を与える。
未承認のディープフェイク作成における潜在的な誤用を認めつつ、リスクを最小限に抑えつつ、ポジティブな社会的影響を確保するため、ユーザ同意確認と検知システムとの統合による責任ある展開を提唱する。
関連論文リスト
- Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired [10.648018999640758]
視力障害8例(BVI)を主訴に来院した。
この結果から,現在のライブビデオAIは静的なシーンのガイダンスや回答を効果的に提供するが,ダイナミックな状況において必要不可欠なライブ記述の提供には不十分であることが示唆された。
我々は、実世界の利用に付加的なセンシング機能を導入することを含む、補助的なビデオAIエージェントへの影響について論じる。
論文 参考訳(メタデータ) (2025-08-05T16:59:02Z) - V-NAW: Video-based Noise-aware Adaptive Weighting for Facial Expression Recognition [9.57248169951292]
8th Affective Behavior Analysis in-the-Wild (ABAW) Challengeは、ビデオベースのAff-Wild2データセットを使用して人間の感情を評価することを目的としている。
この課題には、ビデオベースのEXPR認識トラックなど、さまざまなタスクが含まれています。
本稿では,ビデオベースのノイズ対応適応重み付け (V-NAW) を提案する。
論文 参考訳(メタデータ) (2025-03-20T09:13:34Z) - PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - RITA: A Real-time Interactive Talking Avatars Framework [6.060251768347276]
RITAは、生成モデルに基づいて構築された高品質なリアルタイム対話型フレームワークを提供する。
当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。
論文 参考訳(メタデータ) (2024-06-18T22:53:15Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - Facial Expression Recognition using Squeeze and Excitation-powered Swin
Transformers [0.0]
本研究では,Swin Vision Transformers (SwinT) とSwin Vision Transformers (SE) を用いて,視覚タスクに対処するフレームワークを提案する。
我々の焦点は、最小限のデータを使って顔の感情を認識できるSwinTアーキテクチャに基づく効率的なFERモデルを作ることであった。
我々は、ハイブリッドデータセットでモデルをトレーニングし、そのパフォーマンスをAffectNetデータセットで評価し、F1スコア0.5420を達成しました。
論文 参考訳(メタデータ) (2023-01-26T02:29:17Z) - RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live
Storytelling [7.330145218077073]
本稿では,音声駆動の対話型仮想要素を用いたリアルタイムライブプレゼンテーションシステムであるRealityTalkを紹介する。
既存の177の動画編集型拡張現実プレゼンテーションの分析に基づいて,対話手法の新たなセットを提案する。
我々は,システムの有効性を実証するために,プレゼンターの視点からツールを評価する。
論文 参考訳(メタデータ) (2022-08-12T16:12:00Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。