論文の概要: HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2503.12955v1
- Date: Mon, 17 Mar 2025 09:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:29.774901
- Title: HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding
- Title(参考訳): HIS-GPT:3次元ヒューマンインシーンマルチモーダル理解を目指して
- Authors: Jiahe Zhao, Ruibing Hou, Zejie Tian, Hong Chang, Shiguang Shan,
- Abstract要約: 具体的エージェントに対するヒューマン・イン・シーン・サーチ・アンサーリング(HIS-QA)のためのヒューマン・イン・シーン・理解のベンチマークのための新しいタスクを提案する。
HIS-QAは、エージェントが人間の状態や行動を理解し、周囲の環境を判断し、シーン内の人間関連の質問に答えることを要求する。
広帯域でのHIS理解を体系的に評価するマルチモーダル・ベンチマークであるHIS-Benchを提案する。
- 参考スコア(独自算出の注目度): 57.763735969891286
- License:
- Abstract: We propose a new task to benchmark human-in-scene understanding for embodied agents: Human-In-Scene Question Answering (HIS-QA). Given a human motion within a 3D scene, HIS-QA requires the agent to comprehend human states and behaviors, reason about its surrounding environment, and answer human-related questions within the scene. To support this new task, we present HIS-Bench, a multimodal benchmark that systematically evaluates HIS understanding across a broad spectrum, from basic perception to commonsense reasoning and planning. Our evaluation of various vision-language models on HIS-Bench reveals significant limitations in their ability to handle HIS-QA tasks. To this end, we propose HIS-GPT, the first foundation model for HIS understanding. HIS-GPT integrates 3D scene context and human motion dynamics into large language models while incorporating specialized mechanisms to capture human-scene interactions. Extensive experiments demonstrate that HIS-GPT sets a new state-of-the-art on HIS-QA tasks. We hope this work inspires future research on human behavior analysis in 3D scenes, advancing embodied AI and world models.
- Abstract(参考訳): そこで我々は,Human-In-Scene Question Answering (HIS-QA) という,具体的エージェントに対するヒューマン・イン・シーン理解のベンチマークを行う新しいタスクを提案する。
HIS-QAは3Dシーン内での人間の動きを考慮に入れ、エージェントが人間の状態や行動を理解し、周囲の環境を判断し、シーン内の人間関連の質問に答えるように要求する。
この新たな課題を支援するために,基本的認識から常識的推論,計画に至るまで,幅広い範囲にわたるHIS理解を体系的に評価するマルチモーダル・ベンチマークであるHIS-Benchを提案する。
HIS-Bench上での様々な視覚言語モデルの評価により,HIS-QAタスクの処理能力の大幅な制限が明らかになった。
そこで本研究では,HIS理解のための基礎モデルであるHIS-GPTを提案する。
HIS-GPTは3Dシーンのコンテキストと人間の動きのダイナミクスを大きな言語モデルに統合し、人間とシーンの相互作用を捉えるための特別なメカニズムを取り入れている。
HIS-GPTがHIS-QAタスクに新たな最先端を設定できることを示す大規模な実験である。
この研究が将来の3Dシーンにおける人間の行動分析の研究を刺激し、AIと世界モデルを前進させることを願っている。
関連論文リスト
- Visual Agentic AI for Spatial Reasoning with a Dynamic API [26.759236329608935]
本稿では,3次元空間推論問題を解くためのエージェントプログラム合成手法を提案する。
我々の手法は、静的なヒューマン定義APIに依存する従来のアプローチの限界を克服する。
本手法は3次元の視覚的推論において,従来のゼロショットモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:35Z) - Human-Modeling in Sequential Decision-Making: An Analysis through the Lens of Human-Aware AI [20.21053807133341]
私たちは、人間を意識したAIシステムを構成するものの説明を提供しようとしています。
人間を意識したAIはデザイン指向のパラダイムであり、人間と対話するかもしれないモデリングの必要性に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-13T14:17:52Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - Expressive Forecasting of 3D Whole-body Human Motions [38.93700642077312]
私たちは初めて、全身の人間のポーズ予測フレームワークを定式化した。
我々のモデルは、クロスコンテキストアライメント(XCA)とクロスコンテキストインタラクション(XCI)の2つの重要な構成要素を含んでいる。
我々は,新たに導入した大規模ベンチマークの広範な実験を行い,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T09:09:46Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。