論文の概要: Unified Human-Scene Interaction via Prompted Chain-of-Contacts
- arxiv url: http://arxiv.org/abs/2309.07918v4
- Date: Tue, 3 Sep 2024 13:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:35:08.301115
- Title: Unified Human-Scene Interaction via Prompted Chain-of-Contacts
- Title(参考訳): Prompted Chain-of-Contactsによる人間とシーンの統一インタラクション
- Authors: Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai, Dahua Lin, Jiangmiao Pang,
- Abstract要約: HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
- 参考スコア(独自算出の注目度): 61.87652569413429
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .
- Abstract(参考訳): HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
動作品質と物理的妥当性の進歩にもかかわらず、多目的インタラクション制御とユーザフレンドリなインターフェースの開発という2つの重要な要素は、HSIの実用化前にさらなる探索が必要である。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
この枠組みは、接触の連鎖(CoC: Chain of Contacts)としての相互作用の定義に基づいて構築されている。
この定義に基づいて、UniHSIはLarge Language Model (LLM) Plannerを構成し、言語プロンプトをCoCの形式でタスクプランに変換する。
トレーニングと評価を容易にするために,多様なシナリオに基づいてLLMが生成する数千のタスク計画を含むScenePlanというデータセットを新たに収集した。
総合的な実験により,実写シーンに対する多目的タスク実行と一般化性において,我々のフレームワークの有効性が実証された。
プロジェクトページはhttps://github.com/OpenRobotLab/UniHSI にある。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T11:54:16Z) - RoCo: Dialectic Multi-Robot Collaboration with Large Language Models [13.260289557301688]
我々は,事前学習された大規模言語モデル(LLM)のパワーを利用する,マルチロボット協調のための新しいアプローチを提案する。
そこで,RoCoはロボットエージェントとコミュニケーションし,協調してタスクを完了させることができる。
論文 参考訳(メタデータ) (2023-07-10T17:52:01Z) - A Unified Architecture for Dynamic Role Allocation and Collaborative
Task Planning in Mixed Human-Robot Teams [0.0]
任意のサイズの混合ロボットチームにおいて,動的役割割り当てと協調作業計画のための新しいアーキテクチャを提案する。
このアーキテクチャは、動作木(BT)に基づく集中型リアクティブかつモジュール型タスク非依存の計画手法を基盤としている。
MILPコストとして使用されるさまざまなメトリクスにより、アーキテクチャはコラボレーションの様々な側面を好むことができる。
論文 参考訳(メタデータ) (2023-01-19T12:30:56Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。