論文の概要: Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity
- arxiv url: http://arxiv.org/abs/2308.13278v1
- Date: Fri, 25 Aug 2023 10:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 14:31:50.150489
- Title: Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity
- Title(参考訳): 言語基底品質多様性のためのllmと決定変換器の統合
- Authors: Achkan Salehi and Stephane Doncieux
- Abstract要約: 品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality-Diversity is a branch of stochastic optimization that is often
applied to problems from the Reinforcement Learning and control domains in
order to construct repertoires of well-performing policies/skills that exhibit
diversity with respect to a behavior space. Such archives are usually composed
of a finite number of reactive agents which are each associated to a unique
behavior descriptor, and instantiating behavior descriptors outside of that
coarsely discretized space is not straight-forward. While a few recent works
suggest solutions to that issue, the trajectory that is generated is not easily
customizable beyond the specification of a target behavior descriptor. We
propose to jointly solve those problems in environments where semantic
information about static scene elements is available by leveraging a Large
Language Model to augment the repertoire with natural language descriptions of
trajectories, and training a policy conditioned on those descriptions. Thus,
our method allows a user to not only specify an arbitrary target behavior
descriptor, but also provide the model with a high-level textual prompt to
shape the generated trajectory. We also propose an LLM-based approach to
evaluating the performance of such generative agents. Furthermore, we develop a
benchmark based on simulated robot navigation in a 2d maze that we use for
experimental validation.
- Abstract(参考訳): 品質多様性(Quality-Diversity)は確率最適化の一分野であり、しばしば強化学習と制御領域の問題に適用され、行動空間に関して多様性を示す優れた政策/スキルのレパートリーを構築する。
このようなアーカイブは通常、ユニークな振る舞い記述子に関連付けられた、有限個の反応性エージェントで構成されており、その粗い離散化された空間の外側の振る舞い記述子をインスタンス化することは、まっすぐではない。
この問題に対する解決策を示唆する最近の研究はいくつかあるが、生成する軌道はターゲットの振る舞い記述子の仕様以上のカスタマイズは容易ではない。
本稿では,静的なシーン要素のセマンティックな情報が利用できる環境において,レパートリーをトラジェクトリの自然言語記述で拡張し,それらの記述に基づいてポリシーを訓練することにより,これらの問題を解決することを提案する。
これにより、任意の対象行動記述子を指定できるだけでなく、生成された軌道を形作るための高レベルテキストプロンプトをモデルに提供することができる。
また,LLMを用いた生成エージェントの性能評価手法を提案する。
さらに,実験的な検証に使用する2次元迷路におけるシミュレーションロボットナビゲーションに基づくベンチマークを開発した。
関連論文リスト
- Generative Context Distillation [48.91617280112579]
Generative Context Distillation (GCD) は、ジョイントトレーニングアプローチを採用した軽量なプロンプト内在化手法である。
エージェントベースのアプリケーションシナリオにおいて,このアプローチが複雑なプロンプトを効果的に内部化することを示す。
論文 参考訳(メタデータ) (2024-11-24T17:32:20Z) - State- and context-dependent robotic manipulation and grasping via uncertainty-aware imitation learning [9.369039142989875]
文脈に依存した把握・操作戦略を取得するためのLfD手法を提案する。
我々は、予測不可能な振る舞いを避けるために、自動的にデモに戻る状態依存のアプローチを提案する。
アプローチは、LASA手書きデータセットと実際の7-DoFロボットに対して評価される。
論文 参考訳(メタデータ) (2024-10-31T15:32:32Z) - Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。