論文の概要: VedicTHG: Symbolic Vedic Computation for Low-Resource Talking-Head Generation in Educational Avatars
- arxiv url: http://arxiv.org/abs/2602.08775v1
- Date: Mon, 09 Feb 2026 15:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.318494
- Title: VedicTHG: Symbolic Vedic Computation for Low-Resource Talking-Head Generation in Educational Avatars
- Title(参考訳): VedicTHG:教育用アバターの低リソーストーキングヘッド生成のための記号ベクトル計算
- Authors: Vineet Kumar Rakesh, Ahana Bhattacharjee, Soumya Mazumdar, Tapas Samanta, Hemendra Kumar Pandey, Amitabha Das, Sarbajit Pal,
- Abstract要約: トーキングヘッドアバターは、社会的存在とエンゲージメントを改善するために、教育技術にますます採用されている。
決定論的かつCPU指向のTHGフレームワークは、音声をタイムアラインな音素ストリームに変換し、音素をコンパクトな音素インベントリにマップする。
その結果,計算負荷とレイテンシを大幅に低減し,ローエンドハードウェア上での実用的な教育アバターをサポートしながら,許容されるリップシンク品質を実現することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Talking-head avatars are increasingly adopted in educational technology to deliver content with social presence and improved engagement. However, many recent talking-head generation (THG) methods rely on GPU-centric neural rendering, large training sets, or high-capacity diffusion models, which limits deployment in offline or resource-constrained learning environments. A deterministic and CPU-oriented THG framework is described, termed Symbolic Vedic Computation, that converts speech to a time-aligned phoneme stream, maps phonemes to a compact viseme inventory, and produces smooth viseme trajectories through symbolic coarticulation inspired by Vedic sutra Urdhva Tiryakbhyam. A lightweight 2D renderer performs region-of-interest (ROI) warping and mouth compositing with stabilization to support real-time synthesis on commodity CPUs. Experiments report synchronization accuracy, temporal stability, and identity consistency under CPU-only execution, alongside benchmarking against representative CPU-feasible baselines. Results indicate that acceptable lip-sync quality can be achieved while substantially reducing computational load and latency, supporting practical educational avatars on low-end hardware. GitHub: https://vineetkumarrakesh.github.io/vedicthg
- Abstract(参考訳): トーキングヘッドアバターは、社会的存在とエンゲージメントを改善するために、教育技術にますます採用されている。
しかし、最近のトーキングヘッド生成(THG)メソッドの多くは、GPU中心のニューラルレンダリング、大規模なトレーニングセット、オフラインまたはリソース制約のある学習環境へのデプロイメントを制限する高容量拡散モデルに依存している。
定性的でCPU指向のTHGフレームワークであるSymbolic Vedic Computationは、音声をタイムアラインな音素ストリームに変換し、音素をコンパクトなVisemeインベントリにマップし、Vedickyo Urdhva Tiryakbhyamにインスパイアされたシンボリック・コージェクレーションによってスムーズなVisemeトラジェクトリを生成する。
軽量な2Dレンダラーは、コモディティCPU上でリアルタイム合成をサポートするために、領域オブ関心(ROI)ワープと安定化を伴う口構成を行う。
実験では、CPUのみの実行下での同期精度、時間的安定性、アイデンティティの整合性、およびCPU対応ベースラインに対するベンチマークを報告している。
その結果,計算負荷とレイテンシを大幅に低減し,ローエンドハードウェア上での実用的な教育アバターをサポートしながら,許容されるリップシンク品質を実現することが可能であることが示唆された。
GitHub: https://vineetkumarrakesh.github.io/vedicthg
関連論文リスト
- AGORA: Adversarial Generation Of Real-time Animatable 3D Gaussian Head Avatars [54.854597811704316]
AGORAは、3DGSを生成的敵ネットワーク内で拡張し、アニマタブルなアバターを生成する新しいフレームワークである。
表現の忠実度は、二重識別器の訓練スキームによって強制される。
AGORAは視覚的にリアルなだけでなく、正確に制御可能なアバターを生成する。
論文 参考訳(メタデータ) (2025-12-06T14:05:20Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - Dictionary Learning with Accumulator Neurons [7.86975267379228]
本稿では,アキュムレータニューロンを用いてLCAを効率的に実装する方法を示す。
幅広い力学系における辞書学習を実証する。
我々は、アキュムレータニューロンが将来のニューロモルフィックハードウェアの強力な構成要素となる可能性が高いと結論づける。
論文 参考訳(メタデータ) (2022-05-30T19:06:41Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。