論文の概要: ChatHuman: Chatting about 3D Humans with Tools
- arxiv url: http://arxiv.org/abs/2405.04533v2
- Date: Thu, 29 May 2025 11:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.254589
- Title: ChatHuman: Chatting about 3D Humans with Tools
- Title(参考訳): ChatHuman: ツールで3D人間をチャットする
- Authors: Jing Lin, Yao Feng, Weiyang Liu, Michael J. Black,
- Abstract要約: ChatHumanは、特殊なメソッドの機能を統一されたフレームワークに統合する、言語駆動のシステムである。
ChatHumanは、3Dヒューマンタスクに特化したツールの利用、分析、相互作用に熟練したアシスタントとして機能する。
- 参考スコア(独自算出の注目度): 57.29285473727107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous methods have been proposed to detect, estimate, and analyze properties of people in images, including 3D pose, shape, contact, human-object interaction, and emotion. While widely applicable in vision and other areas, such methods require expert knowledge to select, use, and interpret the results. To address this, we introduce ChatHuman, a language-driven system that integrates the capabilities of specialized methods into a unified framework. ChatHuman functions as an assistant proficient in utilizing, analyzing, and interacting with tools specific to 3D human tasks, adeptly discussing and resolving related challenges. Built on a Large Language Model (LLM) framework, ChatHuman is trained to autonomously select, apply, and interpret a diverse set of tools in response to user inputs. Our approach overcomes significant hurdles in adapting LLMs to 3D human tasks, including the need for domain-specific knowledge and the ability to interpret complex 3D outputs. The innovations of ChatHuman include leveraging academic publications to instruct the LLM on tool usage, employing a retrieval-augmented generation model to create in-context learning examples for managing new tools, and effectively discriminating between and integrating tool results by transforming specialized 3D outputs into comprehensible formats. Experiments demonstrate that ChatHuman surpasses existing models in both tool selection accuracy and overall performance across various 3D human tasks, and it supports interactive chatting with users. ChatHuman represents a significant step toward consolidating diverse analytical methods into a unified, robust system for 3D human tasks.
- Abstract(参考訳): 3次元ポーズ、形状、接触、人間と物体の相互作用、感情など、画像中の人の特性を検出し、推定し、分析するための多くの方法が提案されている。
視覚やその他の分野で広く応用されるが、これらの手法は結果の選択、使用、解釈に専門家の知識を必要とする。
この問題を解決するために、特殊メソッドの機能を統一されたフレームワークに統合する言語駆動システムChatHumanを紹介します。
ChatHumanは、3Dヒューマンタスクに特化したツールの利用、分析、相互作用に熟練したアシスタントとして機能し、関連する課題を十分に議論し解決する。
LLM(Large Language Model)フレームワーク上に構築されたChatHumanは、ユーザ入力に応じて、さまざまなツールを自律的に選択、適用、解釈するように訓練されている。
我々のアプローチは、ドメイン固有の知識の必要性や複雑な3D出力を解釈する能力など、LLMを3Dヒューマンタスクに適用する際の大きなハードルを克服する。
ChatHumanのイノベーションには、学術出版物を活用してLLMにツールの使用を指示すること、新しいツールを管理するためのコンテキスト内学習例を作成するために検索強化された生成モデルを利用すること、特殊な3D出力を理解可能なフォーマットに変換することで、ツール結果を効果的に識別および統合することが含まれる。
実験によると、ChatHumanはツールの選択精度と、さまざまな3Dヒューマンタスクにおける全体的なパフォーマンスの両方で既存のモデルを超えており、ユーザとの対話的なチャットをサポートする。
ChatHumanは、多様な分析手法を3Dヒューマンタスクのための統一的で堅牢なシステムに統合するための重要なステップである。
関連論文リスト
- InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。
トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。
次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文 参考訳(メタデータ) (2025-05-30T07:53:55Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。
本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-08-30T21:33:58Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Pose Priors from Language Models [74.61186408764559]
言語はしばしば物理的相互作用を記述するために使用されるが、ほとんどの3次元人間のポーズ推定方法は、この豊富な情報ソースを見下ろしている。
我々は、コンタクトポーズの再構築に先立って、大型マルチモーダルモデル(LMM)を活用することにより、このギャップを埋める。
論文 参考訳(メタデータ) (2024-05-06T17:59:36Z) - Maia: A Real-time Non-Verbal Chat for Human-AI Interaction [11.558827428811385]
本稿では,顔の表情と頭部の動きを反映したテキストチャットの代替案を提案する。
私たちのゴールは、表情やその他の非言語的手がかりをリアルタイムで追跡し分析し、この情報を使って人間の振る舞いを予測し理解するモデルを構築することです。
論文 参考訳(メタデータ) (2024-02-09T13:07:22Z) - Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - ChatPose: Chatting about 3D Human Pose [47.70287492050979]
ChatPoseは、画像やテキスト記述から3Dの人間のポーズを理解し、推論するためのフレームワークである。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - iCub! Do you recognize what I am doing?: multimodal human action
recognition on multisensory-enabled iCub robot [0.0]
提案したマルチモーダルアンサンブル学習は、3つのカラーカメラと1つの深度センサの相補的特性を活用する。
提案したモデルは,マルチモーダル動作認識を必要とするiCubロボットに展開可能であることを示す。
論文 参考訳(メタデータ) (2022-12-17T12:40:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Human-robot co-manipulation of extended objects: Data-driven models and
control from analysis of human-human dyads [2.7036498789349244]
我々は人間と人間のダイアド実験のデータを用いて、物理的な人間とロボットのコマニピュレーションタスクに使用する動きの意図を決定する。
我々は、過去の動きに基づく人間の意図を予測するために、人間と人間のトライアルの動作データに基づくディープニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2020-01-03T21:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。