論文の概要: FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases
- arxiv url: http://arxiv.org/abs/2507.01390v1
- Date: Wed, 02 Jul 2025 06:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.069976
- Title: FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases
- Title(参考訳): FixTalk:極端症例におけるハイクオリティ・トーキング・ヘッドジェネレーションのためのアイデンティティ漏洩処理
- Authors: Shuai Tan, Bill Gong, Bin Ji, Ye Pan,
- Abstract要約: ハイクオリティレンダリングに対する需要が高まり、さまざまな領域でヘッドジェネレーションが重要になっている。
既存の手法はしばしばアイデンティティリーク(IL)やレンダリングアーティファクト(RA)に悩まされる。
本稿では,高品質な音声ヘッド生成のための両問題を同時に解決する新しいフレームワークであるFixTalkを紹介する。
- 参考スコア(独自算出の注目度): 4.0550879279677385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking head generation is gaining significant importance across various domains, with a growing demand for high-quality rendering. However, existing methods often suffer from identity leakage (IL) and rendering artifacts (RA), particularly in extreme cases. Through an in-depth analysis of previous approaches, we identify two key insights: (1) IL arises from identity information embedded within motion features, and (2) this identity information can be leveraged to address RA. Building on these findings, this paper introduces FixTalk, a novel framework designed to simultaneously resolve both issues for high-quality talking head generation. Firstly, we propose an Enhanced Motion Indicator (EMI) to effectively decouple identity information from motion features, mitigating the impact of IL on generated talking heads. To address RA, we introduce an Enhanced Detail Indicator (EDI), which utilizes the leaked identity information to supplement missing details, thus fixing the artifacts. Extensive experiments demonstrate that FixTalk effectively mitigates IL and RA, achieving superior performance compared to state-of-the-art methods.
- Abstract(参考訳): ハイクオリティレンダリングの需要が高まる中、さまざまな領域でヘッドジェネレーションが重要になっている。
しかし、既存の手法はIDリーク(IL)やレンダリングアーティファクト(RA)に悩まされることが多い。
1) ILは動作特徴に埋め込まれたアイデンティティ情報から発生し,(2) このアイデンティティ情報はRAに対処するために利用することができる。
これらの知見に基づいて,高品質な音声ヘッド生成のための両問題を同時に解決する新しいフレームワークであるFixTalkを紹介する。
まず,動作特徴から識別情報を効果的に切り離すためのEMI(Enhanced Motion Indicator)を提案する。
RAに対処するために,漏洩した識別情報を用いて詳細を補う拡張Detail Indicator (EDI) を導入する。
大規模な実験により、FixTalkはILとRAを効果的に緩和し、最先端の手法よりも優れたパフォーマンスを実現している。
関連論文リスト
- Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2025-05-28T13:40:46Z) - HoH: A Dynamic Benchmark for Evaluating the Impact of Outdated Information on Retrieval-Augmented Generation [11.77222928144223]
Retrieval-Augmented Generation (RAG) は、知識の陳腐化問題に対処するための効果的なアプローチとして登場した。
時代遅れの情報がRAGに与える影響を評価するために特別に設計された最初のベンチマークであるHoHを紹介する。
論文 参考訳(メタデータ) (2025-03-03T06:54:05Z) - RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-03-02T06:11:29Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。