論文の概要: Text-to-Decision Agent: Learning Generalist Policies from Natural Language Supervision
- arxiv url: http://arxiv.org/abs/2504.15046v2
- Date: Tue, 22 Apr 2025 05:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 11:43:46.38779
- Title: Text-to-Decision Agent: Learning Generalist Policies from Natural Language Supervision
- Title(参考訳): テキスト・トゥ・意思決定エージェント:自然言語スーパービジョンから一般論を学習する
- Authors: Shilin Zhang, Zican Hu, Wenhao Wu, Xinyi Xie, Jianxiang Tang, Chunlin Chen, Daoyi Dong, Yu Cheng, Zhenhong Sun, Zhi Wang,
- Abstract要約: 本稿では,自然言語による一般政策学習を指導するフレームワークであるText-to-Decision Agent (T2DA)を提案する。
我々は,T2DAが高容量ゼロショットの一般化を促進し,様々なベースラインを上回ることを示す。
- 参考スコア(独自算出の注目度): 36.643102023506614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RL systems usually tackle generalization by inferring task beliefs from high-quality samples or warmup explorations. The restricted form limits their generality and usability since these supervision signals are expensive and even infeasible to acquire in advance for unseen tasks. Learning directly from the raw text about decision tasks is a promising alternative to leverage a much broader source of supervision. In the paper, we propose Text-to-Decision Agent (T2DA), a simple and scalable framework that supervises generalist policy learning with natural language. We first introduce a generalized world model to encode multi-task decision data into a dynamics-aware embedding space. Then, inspired by CLIP, we predict which textual description goes with which decision embedding, effectively bridging their semantic gap via contrastive language-decision pre-training and aligning the text embeddings to comprehend the environment dynamics. After training the text-conditioned generalist policy, the agent can directly realize zero-shot text-to-decision generation in response to language instructions. Comprehensive experiments on MuJoCo and Meta-World benchmarks show that T2DA facilitates high-capacity zero-shot generalization and outperforms various types of baselines.
- Abstract(参考訳): RLシステムは通常、高品質なサンプルやウォームアップ探索からタスク信念を推測することで一般化に取り組む。
制限された形式は、これらの監視信号は高価で、目に見えないタスクのために事前に取得することができないため、その汎用性とユーザビリティを制限する。
意思決定タスクに関する原文から直接学ぶことは、より広範な監督源を活用するための、有望な代替手段である。
本稿では,自然言語による一般政策学習を監督するシンプルでスケーラブルなフレームワークであるText-to-Decision Agent (T2DA)を提案する。
まず,マルチタスク決定データを動的に認識した埋め込み空間に符号化する一般化世界モデルを提案する。
CLIPに触発されて、どのテキスト記述がどの決定を埋めるかを予測し、コントラスト言語による事前学習を通じて意味的ギャップを効果的にブリッジし、テキスト埋め込みを環境力学を理解するために調整する。
テキスト条件のジェネリストポリシをトレーニングした後、エージェントは、言語命令に応じて、ゼロショットテキスト対決定生成を直接実現することができる。
MuJoCoとMeta-Worldベンチマークの総合的な実験により、T2DAは高容量ゼロショットの一般化を促進し、様々なベースラインを上回ります。
関連論文リスト
- A Similarity Paradigm Through Textual Regularization Without Forgetting [17.251684463032433]
テキスト正規化による類似パラダイム(SPTR)と呼ばれる新しい手法を提案する。
SPTRは、手作りのプロンプトに基づく、分離不能なフレームワークである。
11のデータセットにまたがる4つの代表的なタスクは、SPTRが既存のプロンプト学習方法より優れていることを示している。
論文 参考訳(メタデータ) (2025-02-20T09:06:44Z) - LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。
TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前学習言語モデル(PLM)が生成するテキストの意味やスタイルを,推論中に特定のターゲット語を用いて制御することを目的としている。
我々は, PLM を制御するためのタスクの完了方法に関するルールをプログラムできる新しい復号化フレームワーク DECIDER を提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Learning Invariable Semantical Representation from Language for
Extensible Policy Generalization [4.457682773596843]
本稿では,要素ランダム化と呼ばれる意味的不変表現を学習する手法を提案する。
理論的には、ランダム化による意味論的不変表現の学習の実現可能性を証明する。
長期的課題に挑戦する実験は、我々の低レベル政策が環境変化に対するタスクに確実に一般化することを示しています。
論文 参考訳(メタデータ) (2022-01-26T08:04:27Z) - Grounding Language to Entities and Dynamics for Generalization in
Reinforcement Learning [20.43004852346133]
我々は,新しいシナリオへの制御方針の一般化を改善するために,テキスト記述を利用する問題を考える。
マルチモーダルエンティティコンディションの注意モジュールを使用する新しいモデル、EMMAを開発しています。
EMMAはエンドツーエンドの微分可能であり、テキストから観察までエンティティとダイナミクスの潜在基盤を学ぶことができる。
論文 参考訳(メタデータ) (2021-01-19T00:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。