Fugu-MT 論文翻訳(概要): Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity

論文の概要: Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity

arxiv url: http://arxiv.org/abs/2308.13278v1
Date: Fri, 25 Aug 2023 10:00:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 14:31:50.150489
Title: Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity
Title（参考訳）: 言語基底品質多様性のためのllmと決定変換器の統合
Authors: Achkan Salehi and Stephane Doncieux
Abstract要約: 品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quality-Diversity is a branch of stochastic optimization that is often applied to problems from the Reinforcement Learning and control domains in order to construct repertoires of well-performing policies/skills that exhibit diversity with respect to a behavior space. Such archives are usually composed of a finite number of reactive agents which are each associated to a unique behavior descriptor, and instantiating behavior descriptors outside of that coarsely discretized space is not straight-forward. While a few recent works suggest solutions to that issue, the trajectory that is generated is not easily customizable beyond the specification of a target behavior descriptor. We propose to jointly solve those problems in environments where semantic information about static scene elements is available by leveraging a Large Language Model to augment the repertoire with natural language descriptions of trajectories, and training a policy conditioned on those descriptions. Thus, our method allows a user to not only specify an arbitrary target behavior descriptor, but also provide the model with a high-level textual prompt to shape the generated trajectory. We also propose an LLM-based approach to evaluating the performance of such generative agents. Furthermore, we develop a benchmark based on simulated robot navigation in a 2d maze that we use for experimental validation.
Abstract（参考訳）: 品質多様性(Quality-Diversity)は確率最適化の一分野であり、しばしば強化学習と制御領域の問題に適用され、行動空間に関して多様性を示す優れた政策/スキルのレパートリーを構築する。このようなアーカイブは通常、ユニークな振る舞い記述子に関連付けられた、有限個の反応性エージェントで構成されており、その粗い離散化された空間の外側の振る舞い記述子をインスタンス化することは、まっすぐではない。この問題に対する解決策を示唆する最近の研究はいくつかあるが、生成する軌道はターゲットの振る舞い記述子の仕様以上のカスタマイズは容易ではない。本稿では,静的なシーン要素のセマンティックな情報が利用できる環境において,レパートリーをトラジェクトリの自然言語記述で拡張し,それらの記述に基づいてポリシーを訓練することにより,これらの問題を解決することを提案する。これにより、任意の対象行動記述子を指定できるだけでなく、生成された軌道を形作るための高レベルテキストプロンプトをモデルに提供することができる。また,LLMを用いた生成エージェントの性能評価手法を提案する。さらに,実験的な検証に使用する2次元迷路におけるシミュレーションロボットナビゲーションに基づくベンチマークを開発した。

関連論文リスト

Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文参考訳（メタデータ） (2025-03-10T13:39:09Z)
Self-Regularization with Latent Space Explanations for Controllable LLM-based Classification [29.74457390987092]
大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
論文参考訳（メタデータ） (2025-02-19T22:27:59Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Generative Context Distillation [48.91617280112579]
Generative Context Distillation (GCD) は、ジョイントトレーニングアプローチを採用した軽量なプロンプト内在化手法である。エージェントベースのアプリケーションシナリオにおいて,このアプローチが複雑なプロンプトを効果的に内部化することを示す。
論文参考訳（メタデータ） (2024-11-24T17:32:20Z)
State- and context-dependent robotic manipulation and grasping via uncertainty-aware imitation learning [9.369039142989875]
文脈に依存した把握・操作戦略を取得するためのLfD手法を提案する。我々は、予測不可能な振る舞いを避けるために、自動的にデモに戻る状態依存のアプローチを提案する。アプローチは、LASA手書きデータセットと実際の7-DoFロボットに対して評価される。
論文参考訳（メタデータ） (2024-10-31T15:32:32Z)
Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文参考訳（メタデータ） (2024-09-11T17:09:49Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)
Intuitive or Dependent? Investigating LLMs' Behavior Style to Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文参考訳（メタデータ） (2023-09-29T17:26:03Z)
DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文参考訳（メタデータ） (2023-05-30T15:13:17Z)
Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T07:27:29Z)
Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文参考訳（メタデータ） (2021-10-27T01:56:23Z)
Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。 2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文参考訳（メタデータ） (2021-03-26T13:58:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。