論文の概要: Unified Human-Scene Interaction via Prompted Chain-of-Contacts
- arxiv url: http://arxiv.org/abs/2309.07918v2
- Date: Sun, 17 Sep 2023 14:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 10:08:51.283269
- Title: Unified Human-Scene Interaction via Prompted Chain-of-Contacts
- Title(参考訳): Prompted Chain-of-Contactsによる人間とシーンの統一インタラクション
- Authors: Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai,
Dahua Lin, Jiangmiao Pang
- Abstract要約: HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
- 参考スコア(独自算出の注目度): 64.54156041189324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-Scene Interaction (HSI) is a vital component of fields like embodied AI
and virtual reality. Despite advancements in motion quality and physical
plausibility, two pivotal factors, versatile interaction control and the
development of a user-friendly interface, require further exploration before
the practical application of HSI. This paper presents a unified HSI framework,
UniHSI, which supports unified control of diverse interactions through language
commands. This framework is built upon the definition of interaction as Chain
of Contacts (CoC): steps of human joint-object part pairs, which is inspired by
the strong correlation between interaction types and human-object contact
regions. Based on the definition, UniHSI constitutes a Large Language Model
(LLM) Planner to translate language prompts into task plans in the form of CoC,
and a Unified Controller that turns CoC into uniform task execution. To
facilitate training and evaluation, we collect a new dataset named ScenePlan
that encompasses thousands of task plans generated by LLMs based on diverse
scenarios. Comprehensive experiments demonstrate the effectiveness of our
framework in versatile task execution and generalizability to real scanned
scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .
- Abstract(参考訳): HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
動作品質と物理的妥当性の進歩にもかかわらず、2つの重要な要因、多目的インタラクション制御とユーザフレンドリなインターフェースの開発は、HSIの実用化前にさらなる探索を必要とする。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一HSIフレームワークUniHSIを提案する。
この枠組みは、接触の連鎖(CoC: Chain of Contacts)としての相互作用の定義に基づいて構築されている。
この定義に基づいて、unihsiは、言語プロンプトをcocの形式でタスクプランに翻訳する大規模言語モデル(llm)プランナーと、cocを統一されたタスク実行に変換する統一コントローラを構成する。
トレーニングと評価を容易にするために,多様なシナリオに基づいてLLMが生成する数千のタスク計画を含むScenePlanというデータセットを新たに収集した。
汎用的なタスク実行と実際のスキャンシーンに対する一般化性におけるフレームワークの有効性を総合的に検証した。
プロジェクトページはhttps://github.com/OpenRobotLab/UniHSI にある。
関連論文リスト
- Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person
Interaction Recognition [65.87203087716263]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、すべての標準評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T11:54:16Z) - RoCo: Dialectic Multi-Robot Collaboration with Large Language Models [13.260289557301688]
我々は,事前学習された大規模言語モデル(LLM)のパワーを利用する,マルチロボット協調のための新しいアプローチを提案する。
そこで,RoCoはロボットエージェントとコミュニケーションし,協調してタスクを完了させることができる。
論文 参考訳(メタデータ) (2023-07-10T17:52:01Z) - GoferBot: A Visual Guided Human-Robot Collaborative Assembly System [33.649596318580215]
GoferBot(ゴーファーボット)は、現実のアセンブリータスクのための新しい視覚ベースの意味的HRCシステムである。
GoferBotは、視覚的知覚から純粋に暗黙のセマンティック情報を活用することで、すべてのサブモジュールをシームレスに統合する新しいアセンブリシステムである。
論文 参考訳(メタデータ) (2023-04-18T09:09:01Z) - A Comprehensive Architecture for Dynamic Role Allocation and
Collaborative Task Planning in Mixed Human-Robot Teams [0.0]
任意のサイズの混合ロボットチームにおいて,動的役割割り当てと協調作業計画のための新しいアーキテクチャを提案する。
このアーキテクチャは、動作木(BT)に基づく集中型リアクティブかつモジュール型タスク非依存の計画手法を基盤としている。
MILPコストとして使用されるさまざまなメトリクスにより、アーキテクチャはコラボレーションの様々な側面を好むことができる。
論文 参考訳(メタデータ) (2023-01-19T12:30:56Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。