論文の概要: Semantic Skill Grounding for Embodied Instruction-Following in Cross-Domain Environments
- arxiv url: http://arxiv.org/abs/2408.01024v2
- Date: Wed, 21 Aug 2024 01:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:46:26.830456
- Title: Semantic Skill Grounding for Embodied Instruction-Following in Cross-Domain Environments
- Title(参考訳): 身体的指導のためのセマンティック・スキル・グラウンドディング-クロスドメイン環境におけるフォローイング
- Authors: Sangwoo Shin, Seunghyun Kim, Youngsoo Jang, Moontae Lee, Honguk Woo,
- Abstract要約: EIF(Embodied instruction-following)では、タスクプランナとしての事前訓練言語モデル(LM)が重要な分岐として現れる。
セマンティックスキルの階層的性質を活用するセマンティックスキル基盤フレームワークを提案する。
VirtualHomeベンチマークで行った実験では,300のドメイン横断EIFシナリオにおけるSemGroの有効性が示された。
- 参考スコア(独自算出の注目度): 21.7668018144027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In embodied instruction-following (EIF), the integration of pretrained language models (LMs) as task planners emerges as a significant branch, where tasks are planned at the skill level by prompting LMs with pretrained skills and user instructions. However, grounding these pretrained skills in different domains remains challenging due to their intricate entanglement with the domain-specific knowledge. To address this challenge, we present a semantic skill grounding (SemGro) framework that leverages the hierarchical nature of semantic skills. SemGro recognizes the broad spectrum of these skills, ranging from short-horizon low-semantic skills that are universally applicable across domains to long-horizon rich-semantic skills that are highly specialized and tailored for particular domains. The framework employs an iterative skill decomposition approach, starting from the higher levels of semantic skill hierarchy and then moving downwards, so as to ground each planned skill to an executable level within the target domain. To do so, we use the reasoning capabilities of LMs for composing and decomposing semantic skills, as well as their multi-modal extension for assessing the skill feasibility in the target domain. Our experiments in the VirtualHome benchmark show the efficacy of SemGro in 300 cross-domain EIF scenarios.
- Abstract(参考訳): EIF(Embodied instruction-following)では、タスクプランナとしての事前訓練言語モデル(LM)の統合が重要なブランチとして現れ、事前訓練されたスキルとユーザ指示でLMに促すことで、スキルレベルでタスクを計画する。
しかし、ドメイン固有の知識との複雑な絡み合いから、これらの事前訓練されたスキルを異なるドメインに根ざすことは依然として困難である。
この課題に対処するために、セマンティックスキルの階層的性質を活用するセマンティックスキル基盤(セマンティックスキル基盤)フレームワークを提案する。
SemGroはこれらのスキルの幅広い範囲を認識しており、ドメイン間で普遍的に適用可能な短地低セマンティックスキルから、特定のドメインに高度に特化され、調整された長地富裕なセマンティックスキルまで幅広い。
フレームワークは、高いレベルのセマンティックスキル階層から始まり、次に下方へ移動して、計画された各スキルをターゲットドメイン内の実行可能なレベルにグラウンドする、反復的なスキル分解アプローチを採用している。
そこで本手法では,意味的スキルの合成と分解に,LMの推論能力と,対象ドメインにおけるスキル実現可能性を評価するためのマルチモーダル拡張を利用する。
VirtualHomeベンチマークで行った実験では,300のドメイン横断EIFシナリオにおけるSemGroの有効性が示された。
関連論文リスト
- Language Guided Skill Discovery [56.84356022198222]
言語ガイドスキル発見(LGSD)を導入し,スキル間の意味的多様性を最大化する。
LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。
本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。
論文 参考訳(メタデータ) (2024-06-07T04:25:38Z) - More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs [40.54076184225558]
大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
論文 参考訳(メタデータ) (2024-05-28T05:00:12Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - SemTra: A Semantic Skill Translator for Cross-Domain Zero-Shot Policy
Adaptation [6.876580618014666]
本研究では、ドメイン間のセッティングにおいて、セマンティックスキル、セマンティックな専門家の行動パターンのゼロショット適応能力について検討する。
本稿では,セマンティック・スキル・トランスレータ・フレームワークSemTraについて述べる。
我々はMeta-World、Franka Kitchen、RLBench、CARLA環境でフレームワークを評価した。
論文 参考訳(メタデータ) (2024-02-12T05:46:10Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Domain-oriented Language Pre-training with Adaptive Hybrid Masking and
Optimal Transport Alignment [43.874781718934486]
我々は、異なるアプリケーションドメインに対して事前訓練された言語モデルを適用するための一般的なドメイン指向のアプローチを提供する。
フレーズ知識を効果的に保存するために,補助訓練ツールとしてドメインフレーズプールを構築した。
我々はクロスエンティティアライメントを導入し、エンティティアライメントを弱い監督力として活用し、事前訓練されたモデルのセマンティックラーニングを強化する。
論文 参考訳(メタデータ) (2021-12-01T15:47:01Z) - Self-Taught Cross-Domain Few-Shot Learning with Weakly Supervised Object
Localization and Task-Decomposition [84.24343796075316]
本稿では,クロスドメインなFew-Shot学習のためのタスク拡張分解フレームワークを提案する。
提案した自己学習(ST)アプローチは,タスク指向距離空間を構築することで,非目標誘導の問題を軽減する。
CUB、カーズ、Places、Planae、CropDieases、EuroSAT、ISIC、ChestXの8つのドメインを含むクロスドメイン環境で実験を行う。
論文 参考訳(メタデータ) (2021-09-03T04:23:07Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。