Fugu-MT 論文翻訳(概要): ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

論文の概要: ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

arxiv url: http://arxiv.org/abs/2507.00472v1
Date: Tue, 01 Jul 2025 06:38:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.433327
Title: ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
Title（参考訳）: ARIG:リアルタイム対話のための自己回帰型対話型ヘッドジェネレーション
Authors: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei,
Abstract要約: 対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカジェネレータスイッチング手法は,将来的な信号取得に限界がある。本稿では,AR(autoregressive,自己回帰的,自己回帰的,自己回帰的,自己回帰的)に基づくフレームワークARIGを提案する。
参考スコア（独自算出の注目度）: 15.886402427095515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Face-to-face communication, as a common human activity, motivates the research on interactive head generation. A virtual agent can generate motion responses with both listening and speaking capabilities based on the audio or motion signals of the other user and itself. However, previous clip-wise generation paradigm or explicit listener/speaker generator-switching methods have limitations in future signal acquisition, contextual behavioral understanding, and switching smoothness, making it challenging to be real-time and realistic. In this paper, we propose an autoregressive (AR) based frame-wise framework called ARIG to realize the real-time generation with better interaction realism. To achieve real-time generation, we model motion prediction as a non-vector-quantized AR process. Unlike discrete codebook-index prediction, we represent motion distribution using diffusion procedure, achieving more accurate predictions in continuous space. To improve interaction realism, we emphasize interactive behavior understanding (IBU) and detailed conversational state understanding (CSU). In IBU, based on dual-track dual-modal signals, we summarize short-range behaviors through bidirectional-integrated learning and perform contextual understanding over long ranges. In CSU, we use voice activity signals and context features of IBU to understand the various states (interruption, feedback, pause, etc.) that exist in actual conversations. These serve as conditions for the final progressive motion prediction. Extensive experiments have verified the effectiveness of our model.
Abstract（参考訳）: 対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。仮想エージェントは、他ユーザの音声又はモーション信号に基づいて、聴取機能と発声機能の両方を用いて、動作応答を生成することができる。しかし、従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカージェネレータスイッチング手法は、将来の信号取得、文脈的行動理解、スムーズさの切り替えに制限があるため、リアルタイムで現実的であることは困難である。本稿では,AR(autoregressive, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的, 自己回帰的フレームワークを提案する。実時間生成を実現するために,非ベクトル量子化ARプロセスとして動作予測をモデル化する。離散的なコードブック・インデックス予測とは異なり、拡散手順を用いて動きの分布を表現し、連続空間におけるより正確な予測を行う。対話リアリズムを改善するために,対話行動理解(IBU)と詳細な会話状態理解(CSU)を強調した。 In IBU, based on dual-track dual-modal signals, we sums short-range behaviors through bidirectional-integrated learning and performed contextual understanding over long ranges。 CSUでは、実際の会話に存在する様々な状態(中断、フィードバック、一時停止など)を理解するために、IBUの音声活動信号とコンテキスト特徴を使用します。これらは最終進行運動予測の条件として機能する。大規模な実験により,本モデルの有効性が検証された。

関連論文リスト

Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文参考訳（メタデータ） (2025-03-21T02:25:59Z)
Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation [82.73098356401725]
本稿では,過去観測された動きに基づいて次のキャラクターのポーズを生成するためのオンライン反応ポリシーであるReady-to-Reactを提案する。各キャラクターは独自の反応ポリシーを「脳」として持っており、実際の人間のようにストリーミングで対話することができる。われわれのアプローチはスパース信号で制御でき、VRや他のオンラインインタラクティブ環境にも適している。
論文参考訳（メタデータ） (2025-02-27T18:40:30Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文参考訳（メタデータ） (2024-10-21T11:57:56Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文参考訳（メタデータ） (2024-03-20T06:22:37Z)
Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2024-03-14T03:21:33Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。 VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文参考訳（メタデータ） (2021-12-08T09:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。