Fugu-MT 論文翻訳(概要): Unified Human-Scene Interaction via Prompted Chain-of-Contacts

論文の概要: Unified Human-Scene Interaction via Prompted Chain-of-Contacts

arxiv url: http://arxiv.org/abs/2309.07918v4
Date: Tue, 3 Sep 2024 13:52:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 22:35:08.301115
Title: Unified Human-Scene Interaction via Prompted Chain-of-Contacts
Title（参考訳）: Prompted Chain-of-Contactsによる人間とシーンの統一インタラクション
Authors: Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai, Dahua Lin, Jiangmiao Pang,
Abstract要約: HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
参考スコア（独自算出の注目度）: 61.87652569413429
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .
Abstract（参考訳）: HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。動作品質と物理的妥当性の進歩にもかかわらず、多目的インタラクション制御とユーザフレンドリなインターフェースの開発という2つの重要な要素は、HSIの実用化前にさらなる探索が必要である。本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。この枠組みは、接触の連鎖(CoC: Chain of Contacts)としての相互作用の定義に基づいて構築されている。この定義に基づいて、UniHSIはLarge Language Model (LLM) Plannerを構成し、言語プロンプトをCoCの形式でタスクプランに変換する。トレーニングと評価を容易にするために,多様なシナリオに基づいてLLMが生成する数千のタスク計画を含むScenePlanというデータセットを新たに収集した。総合的な実験により,実写シーンに対する多目的タスク実行と一般化性において,我々のフレームワークの有効性が実証された。プロジェクトページはhttps://github.com/OpenRobotLab/UniHSI にある。

関連論文リスト

HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文参考訳（メタデータ） (2025-06-02T12:08:08Z)
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization [41.224062790263375]
TokenHSIは、マルチスキル統一と柔軟な適応が可能なトランスフォーマーベースのポリシーである。主要な洞察は、ヒューマノイドの受容を別の共有トークンとしてモデル化することである。我々のポリシーアーキテクチャは可変長入力をサポートし、学習したスキルを新しいシナリオに柔軟に適応できる。
論文参考訳（メタデータ） (2025-03-25T17:57:46Z)
Human-Object Interaction with Vision-Language Model Guided Relative Movement Dynamics [30.43930233035367]
本稿では,統合されたオブジェクトインタラクションフレームワークを提案する。静的シーンと動的オブジェクトとのインタラクションを言語コマンドを使って統一的に制御する。我々のフレームワークは動的、調音的、静的なオブジェクト間の長い水平相互作用をサポートしている。
論文参考訳（メタデータ） (2025-03-24T05:18:04Z)
RefHCM: A Unified Model for Referring Perceptions in Human-Centric Scenarios [60.772871735598706]
RefHCM(Referring Human-Centric Model)は、人間中心の幅広い参照タスクを統合するためのフレームワークである。 RefHCMは、画像、テキスト、座標、パースマップを含む生のマルチモーダルデータをセマンティックトークンに変換するためにシーケンスマージを採用している。この研究は、一般的なフレームワークで人間の知覚を参照しようとする最初の試みである。
論文参考訳（メタデータ） (2024-12-19T08:51:57Z)
SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation [38.96874874208242]
我々は,ハイレベルなスクリプト駆動の意図を低レベルな制御ポリシーでシームレスにブリッジするSIMSという新しい階層型フレームワークを導入する。具体的には,Large Language Models with Retrieval-Augmented Generationを用いて,一貫性のある多種多様な長文スクリプトを生成する。生成したスクリプトからテキストを埋め込み、スタイリスティックな手順をエンコードする多用途多条件物理ベースの制御ポリシーも開発されている。
論文参考訳（メタデータ） (2024-11-29T18:36:15Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文参考訳（メタデータ） (2023-12-05T12:03:00Z)
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。提案手法は最先端のHOI法と比較して競争性能が向上する。
論文参考訳（メタデータ） (2023-11-03T07:25:57Z)
Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-16T11:54:16Z)
RoCo: Dialectic Multi-Robot Collaboration with Large Language Models [13.260289557301688]
我々は,事前学習された大規模言語モデル(LLM)のパワーを利用する,マルチロボット協調のための新しいアプローチを提案する。そこで,RoCoはロボットエージェントとコミュニケーションし,協調してタスクを完了させることができる。
論文参考訳（メタデータ） (2023-07-10T17:52:01Z)
A Unified Architecture for Dynamic Role Allocation and Collaborative Task Planning in Mixed Human-Robot Teams [0.0]
任意のサイズの混合ロボットチームにおいて,動的役割割り当てと協調作業計画のための新しいアーキテクチャを提案する。このアーキテクチャは、動作木(BT)に基づく集中型リアクティブかつモジュール型タスク非依存の計画手法を基盤としている。 MILPコストとして使用されるさまざまなメトリクスにより、アーキテクチャはコラボレーションの様々な側面を好むことができる。
論文参考訳（メタデータ） (2023-01-19T12:30:56Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。