論文の概要: ChatHuman: Chatting about 3D Humans with Tools
- arxiv url: http://arxiv.org/abs/2405.04533v2
- Date: Thu, 29 May 2025 11:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.254589
- Title: ChatHuman: Chatting about 3D Humans with Tools
- Title(参考訳): ChatHuman: ツールで3D人間をチャットする
- Authors: Jing Lin, Yao Feng, Weiyang Liu, Michael J. Black,
- Abstract要約: ChatHumanは、特殊なメソッドの機能を統一されたフレームワークに統合する、言語駆動のシステムである。
ChatHumanは、3Dヒューマンタスクに特化したツールの利用、分析、相互作用に熟練したアシスタントとして機能する。
- 参考スコア(独自算出の注目度): 57.29285473727107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous methods have been proposed to detect, estimate, and analyze properties of people in images, including 3D pose, shape, contact, human-object interaction, and emotion. While widely applicable in vision and other areas, such methods require expert knowledge to select, use, and interpret the results. To address this, we introduce ChatHuman, a language-driven system that integrates the capabilities of specialized methods into a unified framework. ChatHuman functions as an assistant proficient in utilizing, analyzing, and interacting with tools specific to 3D human tasks, adeptly discussing and resolving related challenges. Built on a Large Language Model (LLM) framework, ChatHuman is trained to autonomously select, apply, and interpret a diverse set of tools in response to user inputs. Our approach overcomes significant hurdles in adapting LLMs to 3D human tasks, including the need for domain-specific knowledge and the ability to interpret complex 3D outputs. The innovations of ChatHuman include leveraging academic publications to instruct the LLM on tool usage, employing a retrieval-augmented generation model to create in-context learning examples for managing new tools, and effectively discriminating between and integrating tool results by transforming specialized 3D outputs into comprehensible formats. Experiments demonstrate that ChatHuman surpasses existing models in both tool selection accuracy and overall performance across various 3D human tasks, and it supports interactive chatting with users. ChatHuman represents a significant step toward consolidating diverse analytical methods into a unified, robust system for 3D human tasks.
- Abstract(参考訳): 3次元ポーズ、形状、接触、人間と物体の相互作用、感情など、画像中の人の特性を検出し、推定し、分析するための多くの方法が提案されている。
視覚やその他の分野で広く応用されるが、これらの手法は結果の選択、使用、解釈に専門家の知識を必要とする。
この問題を解決するために、特殊メソッドの機能を統一されたフレームワークに統合する言語駆動システムChatHumanを紹介します。
ChatHumanは、3Dヒューマンタスクに特化したツールの利用、分析、相互作用に熟練したアシスタントとして機能し、関連する課題を十分に議論し解決する。
LLM(Large Language Model)フレームワーク上に構築されたChatHumanは、ユーザ入力に応じて、さまざまなツールを自律的に選択、適用、解釈するように訓練されている。
我々のアプローチは、ドメイン固有の知識の必要性や複雑な3D出力を解釈する能力など、LLMを3Dヒューマンタスクに適用する際の大きなハードルを克服する。
ChatHumanのイノベーションには、学術出版物を活用してLLMにツールの使用を指示すること、新しいツールを管理するためのコンテキスト内学習例を作成するために検索強化された生成モデルを利用すること、特殊な3D出力を理解可能なフォーマットに変換することで、ツール結果を効果的に識別および統合することが含まれる。
実験によると、ChatHumanはツールの選択精度と、さまざまな3Dヒューマンタスクにおける全体的なパフォーマンスの両方で既存のモデルを超えており、ユーザとの対話的なチャットをサポートする。
ChatHumanは、多様な分析手法を3Dヒューマンタスクのための統一的で堅牢なシステムに統合するための重要なステップである。
関連論文リスト
- DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。
本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-08-30T21:33:58Z) - Maia: A Real-time Non-Verbal Chat for Human-AI Interaction [11.558827428811385]
本稿では,顔の表情と頭部の動きを反映したテキストチャットの代替案を提案する。
私たちのゴールは、表情やその他の非言語的手がかりをリアルタイムで追跡し分析し、この情報を使って人間の振る舞いを予測し理解するモデルを構築することです。
論文 参考訳(メタデータ) (2024-02-09T13:07:22Z) - Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - iCub! Do you recognize what I am doing?: multimodal human action
recognition on multisensory-enabled iCub robot [0.0]
提案したマルチモーダルアンサンブル学習は、3つのカラーカメラと1つの深度センサの相補的特性を活用する。
提案したモデルは,マルチモーダル動作認識を必要とするiCubロボットに展開可能であることを示す。
論文 参考訳(メタデータ) (2022-12-17T12:40:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Human-robot co-manipulation of extended objects: Data-driven models and
control from analysis of human-human dyads [2.7036498789349244]
我々は人間と人間のダイアド実験のデータを用いて、物理的な人間とロボットのコマニピュレーションタスクに使用する動きの意図を決定する。
我々は、過去の動きに基づく人間の意図を予測するために、人間と人間のトライアルの動作データに基づくディープニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2020-01-03T21:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。