論文の概要: ProAct: A Dual-System Framework for Proactive Embodied Social Agents
- arxiv url: http://arxiv.org/abs/2602.14048v1
- Date: Sun, 15 Feb 2026 08:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.625551
- Title: ProAct: A Dual-System Framework for Proactive Embodied Social Agents
- Title(参考訳): ProAct: プロアクティブ・エンボディード・ソーシャル・エージェントのためのデュアル・システム・フレームワーク
- Authors: Zeyi Zhang, Zixi Kang, Ruijie Zhao, Yusen Feng, Biao Jiang, Libin Liu,
- Abstract要約: 身近な社会的エージェントは、最近、音声とジェスチャーの同期生成に進歩している。
積極的社会的行動には、蓄積された文脈と意図推論に関する熟考が必要である。
マルチモーダルインタラクションをストリーミングするためのデュアルシステムフレームワークであるemphProActを提案する。
- 参考スコア(独自算出の注目度): 6.33976966063203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied social agents have recently advanced in generating synchronized speech and gestures. However, most interactive systems remain fundamentally reactive, responding only to current sensory inputs within a short temporal window. Proactive social behavior, in contrast, requires deliberation over accumulated context and intent inference, which conflicts with the strict latency budget of real-time interaction. We present \emph{ProAct}, a dual-system framework that reconciles this time-scale conflict by decoupling a low-latency \emph{Behavioral System} for streaming multimodal interaction from a slower \emph{Cognitive System} which performs long-horizon social reasoning and produces high-level proactive intentions. To translate deliberative intentions into continuous non-verbal behaviors without disrupting fluency, we introduce a streaming flow-matching model conditioned on intentions via ControlNet. This mechanism supports asynchronous intention injection, enabling seamless transitions between reactive and proactive gestures within a single motion stream. We deploy ProAct on a physical humanoid robot and evaluate both motion quality and interactive effectiveness. In real-world interaction user studies, participants and observers consistently prefer ProAct over reactive variants in perceived proactivity, social presence, and overall engagement, demonstrating the benefits of dual-system proactive control for embodied social interaction.
- Abstract(参考訳): 身近な社会的エージェントは、最近、音声とジェスチャーの同期生成に進歩している。
しかし、ほとんどの対話システムは基本的に反応し、短い時間窓内での現在の感覚入力にのみ反応する。
対照的に、積極的な社会的行動は蓄積された文脈と意図推論に関する議論を必要とし、これはリアルタイムインタラクションの厳格な遅延予算と矛盾する。
本稿では,長時間の社会的推論を行い,高レベルの積極的意図を生み出す,低遅延なemph{Behavioral System}と低遅延なemph{Behavioral System}を分離して,この時間的対立を解消するデュアルシステムフレームワークであるemph{ProActについて述べる。
議論意図を非言語行動に変換するために,制御ネットを用いたストリームフローマッチングモデルを提案する。
このメカニズムは非同期な意図注入をサポートし、単一のモーションストリーム内で、リアクティブとプロアクティブなジェスチャー間のシームレスな遷移を可能にする。
身体型ヒューマノイドロボットにProActを配置し,動作品質と対話性の両方を評価する。
実世界のインタラクションユーザスタディでは、参加者とオブザーバは、認識された活動性、社会的存在、および全体的なエンゲージメントにおける反応性変異よりも、常にProActを好んでおり、二重系プロアクティブコントロールの利点を体現された社会的相互作用に示している。
関連論文リスト
- Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents [13.902411927285328]
ソーシャルエージェント(Social Agent)は、現実的で文脈的に適切な非言語行為をダイアディック会話で合成するための新しいフレームワークである。
本研究では,Large Language Model (LLM) によって駆動されるエージェントシステムを構築し,会話の流れを指示し,双方の参加者に対して適切な対話行動を決定する。
本稿では,音声信号から協調した動きを合成する自己回帰拡散モデルに基づく,新しい対人ジェスチャ生成モデルを提案する。
論文 参考訳(メタデータ) (2025-10-06T09:41:37Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation [82.73098356401725]
本稿では,過去観測された動きに基づいて次のキャラクターのポーズを生成するためのオンライン反応ポリシーであるReady-to-Reactを提案する。
各キャラクターは独自の反応ポリシーを「脳」として持っており、実際の人間のようにストリーミングで対話することができる。
われわれのアプローチはスパース信号で制御でき、VRや他のオンラインインタラクティブ環境にも適している。
論文 参考訳(メタデータ) (2025-02-27T18:40:30Z) - Diffusion-Based Imitation Learning for Social Pose Generation [0.0]
ロボットや仮想エージェントのような知的なエージェントは、人間と対話する複雑な社会的相互作用のダイナミクスを理解する必要がある。
我々は、社会的相互作用における複数の個人の単一のモダリティ、ポーズ行動を用いて、その相互作用のファシリテータのための非言語的社会的手がかりを生成する方法について検討する。
論文 参考訳(メタデータ) (2025-01-18T20:31:55Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。