Fugu-MT 論文翻訳(概要): Body of Her: A Preliminary Study on End-to-End Humanoid Agent

論文の概要: Body of Her: A Preliminary Study on End-to-End Humanoid Agent

arxiv url: http://arxiv.org/abs/2408.02879v1
Date: Tue, 6 Aug 2024 01:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 15:19:13.614257
Title: Body of Her: A Preliminary Study on End-to-End Humanoid Agent
Title（参考訳）: 彼女の身体:エンド・ツー・エンドヒューマノイド剤に関する予備研究
Authors: Tenglong Ao,
Abstract要約: 本稿では,現実的なエージェントの動作をモデル化可能な,リアルタイムで複雑な対話型エンド・ツー・エンド・ネットワークを提案する。この研究は、この分野でエンド・ツー・エンドのアプローチを予備的な調査を行い、スケールアップに向けたさらなる研究を刺激することを目的としている。
参考スコア（独自算出の注目度）: 0.8702432681310401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interactive virtual humanoid agent is a crucial interface with the physical world. A relatively complete humanoid agent first needs to have face and body, then possess both verbal and non-verbal (such as eye contact, facial expression, lip motion, gesture, and manipulation) abilities, and finally, it is capable of real-time duplex communication, e.g., the ability to actively interrupt conversations. Most prior systems typically only consider a subset of these elements, leaving a gap from realistic humanoid agent. In this work, we propose a real-time, duplex, interactive end-to-end network capable of modeling realistic agent behaviors, including speech, full-body movements for talking, responding, idling, and manipulation. This system is a multimodal model integrating audio and visual inputs, extended from a pre-trained large language model (LLM). We collect approximately 200,000 hours of audio, around 130,000 hours of video data, and about 20,000 alignment samples to build the model. The final model demonstrates capabilities that are difficult to achieve in previous systems, such as generalized object manipulation. This work performs a preliminary exploration of the end-to-end approach in this field, aiming to inspire further research towards scaling up.
Abstract（参考訳）: 対話型仮想ヒューマノイドエージェントは物理世界にとって重要なインターフェースである。比較的完全なヒューマノイド剤は、まず顔と体を持ち、次に言語と非言語の両方の能力(例えば、アイコンタクト、表情、唇の動き、ジェスチャー、操作)を持ち、最後に、リアルタイムの二重コミュニケーション、例えば会話を積極的に中断する能力を持つ。以前のほとんどのシステムは、通常これらの要素のサブセットのみを考慮し、現実的なヒューマノイドエージェントとのギャップを残している。本研究では,対話,応答,アイドリング,操作など,現実的なエージェント行動のモデル化が可能なリアルタイム・二重化・対話型エンド・ツー・エンド・ネットワークを提案する。このシステムは、事前訓練された大言語モデル(LLM)から拡張された音声と視覚入力を統合したマルチモーダルモデルである。約20万時間のオーディオ、約13万時間のビデオデータ、約2万のアライメントサンプルを収集してモデルを構築しています。最終モデルは、一般化されたオブジェクト操作のような、以前のシステムでは達成が難しい機能を示す。この研究は、この分野でエンド・ツー・エンドのアプローチを予備的な調査を行い、スケールアップに向けたさらなる研究を刺激することを目的としている。

関連論文リスト

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models [25.45077656291886]
動作関連条件をトレーニングフェーズに混合することにより,データをスケールアップする拡散トランスフォーマーベースのフレームワークを提案する。これらの設計により、OmniHumanはデータ駆動モーション生成を完全に活用し、最終的に非常にリアルな人間のビデオ生成を実現することができる。既存のエンドツーエンドのオーディオ駆動方式と比較して、OmniHumanはよりリアルなビデオを生成するだけでなく、入力の柔軟性も向上している。
論文参考訳（メタデータ） (2025-02-03T05:17:32Z)
Massively Multi-Person 3D Human Motion Forecasting with Scene Context [13.197408989895102]
本研究では、長期(10秒)の人間の動きを予測するために、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案する。我々は、時間的畳み込みエンコーダ・デコーダアーキテクチャとTransformerベースのボトルネックを組み合わせることで、動きとシーン情報を効率的に組み合わせることができる。我々のモデルは、さまざまなメトリクスやユーザスタディにおいて、リアリズムや多様性の観点から、他のアプローチよりも優れています。
論文参考訳（メタデータ） (2024-09-18T17:58:51Z)
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-15T06:40:38Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文参考訳（メタデータ） (2023-09-28T08:22:00Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
Ditto in the House: Building Articulation Models of Indoor Scenes through Interactive Perception [31.009703947432026]
本研究は,ロボットの意図的なインタラクションを通じて室内シーンの調音モデルを構築することを検討する。この課題にインタラクティブな認識アプローチを導入する。シミュレーションと実世界の両方において,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-02-02T18:22:00Z)
Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。 CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。 HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文参考訳（メタデータ） (2022-12-20T19:50:54Z)
Multi-Modal Open-Domain Dialogue [28.69395893943413]
オープンドメインの会話エージェントにおける最近の研究は、大規模なスケーリングによって、モデルエンゲージネスと人文性メトリクスの大幅な改善が達成できることを実証している。我々は、最先端のオープンドメイン対話エージェントと最先端のビジョンモデルからのコンポーネントの組み合わせについて検討する。提案手法は,マルチモーダル対話において,既存モデルよりも優れた性能を示すと同時に,先行モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-10-02T16:20:39Z)
Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文参考訳（メタデータ） (2019-12-30T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。