論文の概要: ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
- arxiv url: http://arxiv.org/abs/2603.10256v1
- Date: Tue, 10 Mar 2026 22:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.710666
- Title: ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
- Title(参考訳): ID-LoRA: In-Context LoRAを用いたアイデンティティ駆動型オーディオビデオパーソナライゼーション
- Authors: Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes,
- Abstract要約: 既存のビデオパーソナライズ手法は、視覚的類似性を保ちながら、ビデオとオーディオを別々に扱う。
被験者の外観と音声を1つのモデルで共同生成するID-LoRAを提案する。
人間の嗜好研究において、ID-LoRA は Kling 2.6 Pro よりも 73% のアノテータが音声に類似し、65% が話し方で好まれる。
- 参考スコア(独自算出の注目度): 63.95311560556552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.
- Abstract(参考訳): 既存のビデオパーソナライズ手法は、視覚的類似性を保ちながら、ビデオとオーディオを別々に扱う。
音声モデルは、映像シーンへのアクセスなしでは、オンスクリーン動作と音の同期ができない。また、古典的な音声閉鎖モデルは、参照記録にのみ条件づけられているため、テキストプロンプトは、話し方や音響環境をリダイレクトできない。
提案するID-LoRA(Identity-Driven In-Context LoRA)は,テキストプロンプト,参照画像,短い音声クリップを併用して,被験者の外観と音声を単一モデルで生成する。
ID-LoRAは、パラメータ効率のよいIn-Context LoRAを介してLTX-2の音声・ビデオ拡散バックボーンを適応させ、我々の知る限り、単一の生成パスにおける視覚的外観と音声をパーソナライズする最初の方法である。
2つの課題が生じる。
参照トークンと生成トークンは、同じ位置エンコーディング空間を共有して、区別しにくくし、これを負の時間的位置で処理し、内部の時間的構造を保ちながら、非結合のRoPE領域に参照トークンを配置する。
また, 話者特性は, 参照信号と非参照信号とを対比することにより, 話者特有の特徴を増幅する, 識別不能なガイダンス変種であるアイデンティティガイダンスを導入する。
人間の嗜好研究において、ID-LoRA は Kling 2.6 Pro よりも 73% のアノテータが音声に類似し、65% が話し方で好まれる。
クロス環境設定では、Klingよりも話者の類似性が24%向上し、条件が多様化するにつれてギャップが広がる。
予備的なユーザスタディは、結合生成が物理的に接地された音合成に有用な誘導バイアスを与えることを示唆している。
ID-LoRAは、1つのGPU上で約3Kのトレーニングペアでこれらの結果を達成する。
コード、モデル、データはリリースされます。
関連論文リスト
- OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model [37.45649985771698]
ビデオのアイデンティティと音声の音色の両方を同期的にカスタマイズすることを目的とした、同期オーディオ・ビデオのカスタマイズを提案する。
この新しいタスクでは、参照音声の音色を模倣しながら、参照画像の同一性を維持するビデオを生成する必要がある。
この目的のために、我々は強力なDiTベースのオーディオビデオカスタマイズフレームワークであるOmniCustomを提案する。
論文 参考訳(メタデータ) (2026-02-12T03:25:41Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis [42.203900183584665]
本稿ではAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力の最先端を超越している。
論文 参考訳(メタデータ) (2023-12-18T04:14:38Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。