論文の概要: Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity
- arxiv url: http://arxiv.org/abs/2308.13278v1
- Date: Fri, 25 Aug 2023 10:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 14:31:50.150489
- Title: Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity
- Title(参考訳): 言語基底品質多様性のためのllmと決定変換器の統合
- Authors: Achkan Salehi and Stephane Doncieux
- Abstract要約: 品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality-Diversity is a branch of stochastic optimization that is often
applied to problems from the Reinforcement Learning and control domains in
order to construct repertoires of well-performing policies/skills that exhibit
diversity with respect to a behavior space. Such archives are usually composed
of a finite number of reactive agents which are each associated to a unique
behavior descriptor, and instantiating behavior descriptors outside of that
coarsely discretized space is not straight-forward. While a few recent works
suggest solutions to that issue, the trajectory that is generated is not easily
customizable beyond the specification of a target behavior descriptor. We
propose to jointly solve those problems in environments where semantic
information about static scene elements is available by leveraging a Large
Language Model to augment the repertoire with natural language descriptions of
trajectories, and training a policy conditioned on those descriptions. Thus,
our method allows a user to not only specify an arbitrary target behavior
descriptor, but also provide the model with a high-level textual prompt to
shape the generated trajectory. We also propose an LLM-based approach to
evaluating the performance of such generative agents. Furthermore, we develop a
benchmark based on simulated robot navigation in a 2d maze that we use for
experimental validation.
- Abstract(参考訳): 品質多様性(Quality-Diversity)は確率最適化の一分野であり、しばしば強化学習と制御領域の問題に適用され、行動空間に関して多様性を示す優れた政策/スキルのレパートリーを構築する。
このようなアーカイブは通常、ユニークな振る舞い記述子に関連付けられた、有限個の反応性エージェントで構成されており、その粗い離散化された空間の外側の振る舞い記述子をインスタンス化することは、まっすぐではない。
この問題に対する解決策を示唆する最近の研究はいくつかあるが、生成する軌道はターゲットの振る舞い記述子の仕様以上のカスタマイズは容易ではない。
本稿では,静的なシーン要素のセマンティックな情報が利用できる環境において,レパートリーをトラジェクトリの自然言語記述で拡張し,それらの記述に基づいてポリシーを訓練することにより,これらの問題を解決することを提案する。
これにより、任意の対象行動記述子を指定できるだけでなく、生成された軌道を形作るための高レベルテキストプロンプトをモデルに提供することができる。
また,LLMを用いた生成エージェントの性能評価手法を提案する。
さらに,実験的な検証に使用する2次元迷路におけるシミュレーションロボットナビゲーションに基づくベンチマークを開発した。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Concept-modulated model-based offline reinforcement learning for rapid
generalization [5.512991103610139]
本研究では,環境概念や非教師付き手法で学習したダイナミックスに制約されたシナリオを自己生成する手法を提案する。
特に、エージェントの環境の内部モデルは、エージェントの動作に敏感な入力空間の低次元概念表現に条件付けされる。
モデルベースおよびモデルフリーアプローチと比較して,特定の障害事例の異なるインスタンスに対するワンショット一般化の劇的な改善と,同様のバリエーションに対するゼロショット一般化を示す。
論文 参考訳(メタデータ) (2022-09-07T15:06:38Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - From Demonstrations to Task-Space Specifications: Using Causal Analysis
to Extract Rule Parameterization from Demonstrations [16.330400985738205]
本研究では,人間の実演から抽出した異なるユーザ行動型の生成モデルを学習することが可能であることを示す。
これらのモデルを使って、ユーザタイプを区別し、重複するソリューションのケースを見つけます。
本手法は, 99%[97.8~99.8]の症例において, 所定の時間内に正しい型を同定し, IRLベースラインを上回った。
論文 参考訳(メタデータ) (2020-06-08T00:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。