論文の概要: ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
- arxiv url: http://arxiv.org/abs/2507.00472v1
- Date: Tue, 01 Jul 2025 06:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.433327
- Title: ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
- Title(参考訳): ARIG:リアルタイム対話のための自己回帰型対話型ヘッドジェネレーション
- Authors: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei,
- Abstract要約: 対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。
従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカジェネレータスイッチング手法は,将来的な信号取得に限界がある。
本稿では,AR(autoregressive,自己回帰的,自己回帰的,自己回帰的,自己回帰的)に基づくフレームワークARIGを提案する。
- 参考スコア(独自算出の注目度): 15.886402427095515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face-to-face communication, as a common human activity, motivates the research on interactive head generation. A virtual agent can generate motion responses with both listening and speaking capabilities based on the audio or motion signals of the other user and itself. However, previous clip-wise generation paradigm or explicit listener/speaker generator-switching methods have limitations in future signal acquisition, contextual behavioral understanding, and switching smoothness, making it challenging to be real-time and realistic. In this paper, we propose an autoregressive (AR) based frame-wise framework called ARIG to realize the real-time generation with better interaction realism. To achieve real-time generation, we model motion prediction as a non-vector-quantized AR process. Unlike discrete codebook-index prediction, we represent motion distribution using diffusion procedure, achieving more accurate predictions in continuous space. To improve interaction realism, we emphasize interactive behavior understanding (IBU) and detailed conversational state understanding (CSU). In IBU, based on dual-track dual-modal signals, we summarize short-range behaviors through bidirectional-integrated learning and perform contextual understanding over long ranges. In CSU, we use voice activity signals and context features of IBU to understand the various states (interruption, feedback, pause, etc.) that exist in actual conversations. These serve as conditions for the final progressive motion prediction. Extensive experiments have verified the effectiveness of our model.
- Abstract(参考訳): 対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。
仮想エージェントは、他ユーザの音声又はモーション信号に基づいて、聴取機能と発声機能の両方を用いて、動作応答を生成することができる。
しかし、従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカージェネレータスイッチング手法は、将来の信号取得、文脈的行動理解、スムーズさの切り替えに制限があるため、リアルタイムで現実的であることは困難である。
本稿では,AR(autoregressive, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的フレームワークを提案する。
実時間生成を実現するために,非ベクトル量子化ARプロセスとして動作予測をモデル化する。
離散的なコードブック・インデックス予測とは異なり、拡散手順を用いて動きの分布を表現し、連続空間におけるより正確な予測を行う。
対話リアリズムを改善するために,対話行動理解(IBU)と詳細な会話状態理解(CSU)を強調した。
In IBU, based on dual-track dual-modal signals, we sums short-range behaviors through bidirectional-integrated learning and performed contextual understanding over long ranges。
CSUでは、実際の会話に存在する様々な状態(中断、フィードバック、一時停止など)を理解するために、IBUの音声活動信号とコンテキスト特徴を使用します。
これらは最終進行運動予測の条件として機能する。
大規模な実験により,本モデルの有効性が検証された。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - SARAH: Spatially Aware Real-time Agentic Humans [58.32612596034656]
ストリーミングVRヘッドセット上に展開可能な空間認識型対話動作のための,初のリアルタイム完全因果的手法を提案する。
ユーザの位置とダイアディックな音声を考慮に入れたアプローチでは,エージェントの向きをユーザに応じて調整しながら,ジェスチャーを音声と整列させる全体動作を生成する。
実写VRシステムに対する我々のアプローチを検証し,空間認識型対話エージェントをリアルタイム展開に適用する。
論文 参考訳(メタデータ) (2026-02-20T18:59:35Z) - Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents [13.902411927285328]
ソーシャルエージェント(Social Agent)は、現実的で文脈的に適切な非言語行為をダイアディック会話で合成するための新しいフレームワークである。
本研究では,Large Language Model (LLM) によって駆動されるエージェントシステムを構築し,会話の流れを指示し,双方の参加者に対して適切な対話行動を決定する。
本稿では,音声信号から協調した動きを合成する自己回帰拡散モデルに基づく,新しい対人ジェスチャ生成モデルを提案する。
論文 参考訳(メタデータ) (2025-10-06T09:41:37Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [90.74616208952791]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文 参考訳(メタデータ) (2025-03-21T02:25:59Z) - Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation [82.73098356401725]
本稿では,過去観測された動きに基づいて次のキャラクターのポーズを生成するためのオンライン反応ポリシーであるReady-to-Reactを提案する。
各キャラクターは独自の反応ポリシーを「脳」として持っており、実際の人間のようにストリーミングで対話することができる。
われわれのアプローチはスパース信号で制御でき、VRや他のオンラインインタラクティブ環境にも適している。
論文 参考訳(メタデータ) (2025-02-27T18:40:30Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。