論文の概要: TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
- arxiv url: http://arxiv.org/abs/2503.19901v1
- Date: Tue, 25 Mar 2025 17:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:00.802884
- Title: TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
- Title(参考訳): TokenHSI:タスクトークン化による物理的ヒューマン・シーンインタラクションの統一合成
- Authors: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang,
- Abstract要約: TokenHSIは、マルチスキル統一と柔軟な適応が可能なトランスフォーマーベースのポリシーである。
主要な洞察は、ヒューマノイドの受容を別の共有トークンとしてモデル化することである。
我々のポリシーアーキテクチャは可変長入力をサポートし、学習したスキルを新しいシナリオに柔軟に適応できる。
- 参考スコア(独自算出の注目度): 41.224062790263375
- License:
- Abstract: Synthesizing diverse and physically plausible Human-Scene Interactions (HSI) is pivotal for both computer animation and embodied AI. Despite encouraging progress, current methods mainly focus on developing separate controllers, each specialized for a specific interaction task. This significantly hinders the ability to tackle a wide variety of challenging HSI tasks that require the integration of multiple skills, e.g., sitting down while carrying an object. To address this issue, we present TokenHSI, a single, unified transformer-based policy capable of multi-skill unification and flexible adaptation. The key insight is to model the humanoid proprioception as a separate shared token and combine it with distinct task tokens via a masking mechanism. Such a unified policy enables effective knowledge sharing across skills, thereby facilitating the multi-task training. Moreover, our policy architecture supports variable length inputs, enabling flexible adaptation of learned skills to new scenarios. By training additional task tokenizers, we can not only modify the geometries of interaction targets but also coordinate multiple skills to address complex tasks. The experiments demonstrate that our approach can significantly improve versatility, adaptability, and extensibility in various HSI tasks. Website: https://liangpan99.github.io/TokenHSI/
- Abstract(参考訳): HSI(Human-Scene Interactions)は、コンピュータアニメーションとエンボディAIの両方において重要である。
進歩の促進にもかかわらず、現在の手法は主に個別のコントローラの開発に焦点を当てており、それぞれが特定のインタラクションタスクに特化している。
これにより、さまざまなHSIタスクに対処する能力が著しく損なわれます。
この問題に対処するために,マルチスキル統一とフレキシブル適応が可能な単一統一トランスフォーマーベースのポリシーであるTokenHSIを提案する。
鍵となる洞察は、ヒューマノイドの受容を別の共有トークンとしてモデル化し、マスキング機構を介して異なるタスクトークンと組み合わせることである。
このような統一された政策は、スキル間の効果的な知識共有を可能にし、マルチタスクトレーニングを容易にする。
さらに,我々のポリシアーキテクチャは可変長入力をサポートし,学習したスキルを新しいシナリオに柔軟に適用することができる。
追加のタスクトークンライザをトレーニングすることで、インタラクションターゲットのジオメトリを変更するだけでなく、複雑なタスクに対処する複数のスキルをコーディネートすることが可能になる。
実験により,HSIタスクの汎用性,適応性,拡張性を大幅に向上できることが示された。
ウェブサイト:https://liangpan99.github.io/TokenHSI/
関連論文リスト
- Integrating Controllable Motion Skills from Demonstrations [30.943279225315308]
制御可能スキル統合(CSI)という,フレキシブルなマルチスキル統合フレームワークを導入する。
CSIは、複雑な報酬チューニングを必要とせずに、様々なスタイルのさまざまなモーションスキルを単一のポリシーに統合することを可能にする。
我々の実験は、CSIがより総合的に多様な動きのスキルを柔軟に統合し、異なるスキル間の遷移を促進することを実証した。
論文 参考訳(メタデータ) (2024-08-06T08:01:02Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - One-shot Imitation in a Non-Stationary Environment via Multi-Modal Skill [6.294766893350108]
本稿では,ワンショット模倣とゼロショット適応が可能なスキルベース模倣学習フレームワークを提案する。
視覚言語モデルを利用して、オフラインのビデオデータセットから設定したセマンティックスキルを学習する。
拡張された多段階のメタワールドタスクに対して,様々なワンショットの模倣シナリオでフレームワークを評価した。
論文 参考訳(メタデータ) (2024-02-13T11:01:52Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - MetaModulation: Learning Variational Feature Hierarchies for Few-Shot
Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。
メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。
また,変分法を取り入れた学習的変分特徴階層も導入する。
論文 参考訳(メタデータ) (2023-05-17T15:47:47Z) - A Transformer Framework for Data Fusion and Multi-Task Learning in Smart
Cities [99.56635097352628]
本稿では,新興スマートシティを対象としたトランスフォーマーベースのAIシステムを提案する。
ほぼ全ての入力データと出力タスクタイプをサポートし、現在のS&CCをサポートする。
S&CC環境を代表する多様なタスクセットを学習して実演する。
論文 参考訳(メタデータ) (2022-11-18T20:43:09Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - SKID RAW: Skill Discovery from Raw Trajectories [23.871402375721285]
すべてのスキルではなく、完全なタスクの実行を示すことが望ましい。
軌跡を反復パターンに分割することを同時に学習する新しい手法を提案する。
このアプローチは、スキルのシーケンスを理解するのに使用できるスキルコンディショニングを学習する。
論文 参考訳(メタデータ) (2021-03-26T17:27:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。