論文の概要: ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning
- arxiv url: http://arxiv.org/abs/2405.04533v1
- Date: Tue, 7 May 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:11:46.799265
- Title: ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning
- Title(参考訳): ChatHuman: Retrieval-Augmented Tool Reasoningによる言語駆動型3Dヒューマン理解
- Authors: Jing Lin, Yao Feng, Weiyang Liu, Michael J. Black,
- Abstract要約: ChatHumanは言語による人間の理解システムである。
多くの異なる手法のスキルを組み合わせて統合する。
ChatHumanは、人間の分析のための多様な手法を、単一の強力な3D推論システムに統合するための一歩だ。
- 参考スコア(独自算出の注目度): 57.29285473727107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous methods have been proposed to detect, estimate, and analyze properties of people in images, including the estimation of 3D pose, shape, contact, human-object interaction, emotion, and more. Each of these methods works in isolation instead of synergistically. Here we address this problem and build a language-driven human understanding system -- ChatHuman, which combines and integrates the skills of many different methods. To do so, we finetune a Large Language Model (LLM) to select and use a wide variety of existing tools in response to user inputs. In doing so, ChatHuman is able to combine information from multiple tools to solve problems more accurately than the individual tools themselves and to leverage tool output to improve its ability to reason about humans. The novel features of ChatHuman include leveraging academic publications to guide the application of 3D human-related tools, employing a retrieval-augmented generation model to generate in-context-learning examples for handling new tools, and discriminating and integrating tool results to enhance 3D human understanding. Our experiments show that ChatHuman outperforms existing models in both tool selection accuracy and performance across multiple 3D human-related tasks. ChatHuman is a step towards consolidating diverse methods for human analysis into a single, powerful, system for 3D human reasoning.
- Abstract(参考訳): 3次元ポーズ、形状、接触、人間と物体の相互作用、感情など、画像中の人の特性を検出し、推定し、分析するための多くの手法が提案されている。
これらのメソッドはそれぞれ、シナジスティックではなく分離して動作する。
ここでは、この問題に対処し、言語駆動の人間理解システム-ChatHumanを構築します。
そのため、ユーザ入力に応じて様々な既存ツールを選択し使用するために、LLM(Large Language Model)を微調整する。
そうすることでChatHumanは、複数のツールからの情報を組み合わせて、個々のツール自身よりも正確な問題を解決し、ツールのアウトプットを活用して、人間の推論能力を向上させることができる。
ChatHumanの新機能には、学術出版の活用による3Dヒューマン関連ツールの適用のガイド、新しいツールを扱うためのコンテキスト内学習例を生成するための検索強化生成モデルの利用、3Dヒューマン理解を強化するためのツール結果の識別と統合が含まれる。
実験の結果,ChatHumanは,複数の3次元人間関連タスクにおいて,ツール選択精度と性能の両方において,既存のモデルよりも優れていることがわかった。
ChatHumanは、人間の分析のための多様な手法を、単一の強力な3D推論システムに統合するための一歩だ。
関連論文リスト
- DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。
本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-08-30T21:33:58Z) - Maia: A Real-time Non-Verbal Chat for Human-AI Interaction [11.558827428811385]
本稿では,顔の表情と頭部の動きを反映したテキストチャットの代替案を提案する。
私たちのゴールは、表情やその他の非言語的手がかりをリアルタイムで追跡し分析し、この情報を使って人間の振る舞いを予測し理解するモデルを構築することです。
論文 参考訳(メタデータ) (2024-02-09T13:07:22Z) - Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - iCub! Do you recognize what I am doing?: multimodal human action
recognition on multisensory-enabled iCub robot [0.0]
提案したマルチモーダルアンサンブル学習は、3つのカラーカメラと1つの深度センサの相補的特性を活用する。
提案したモデルは,マルチモーダル動作認識を必要とするiCubロボットに展開可能であることを示す。
論文 参考訳(メタデータ) (2022-12-17T12:40:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Human-robot co-manipulation of extended objects: Data-driven models and
control from analysis of human-human dyads [2.7036498789349244]
我々は人間と人間のダイアド実験のデータを用いて、物理的な人間とロボットのコマニピュレーションタスクに使用する動きの意図を決定する。
我々は、過去の動きに基づく人間の意図を予測するために、人間と人間のトライアルの動作データに基づくディープニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2020-01-03T21:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。