論文の概要: Discovering Reinforcement Learning Interfaces with Large Language Models
- arxiv url: http://arxiv.org/abs/2605.03408v1
- Date: Tue, 05 May 2026 06:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.800833
- Title: Discovering Reinforcement Learning Interfaces with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた強化学習インタフェースの発見
- Authors: Akshat Singh Jaswal, Ashish Baghel, Paras Chopra,
- Abstract要約: 強化学習システムは、観察と報酬関数を指定する環境インターフェースに依存している。
近年の研究では,大規模言語モデル (LLM) を用いた報酬自動設計が提案されている。
我々はRLタスクインタフェースの探索を生のシミュレータの状態から検討し、そこでは観測マッピングと報酬関数の両方を生成する必要がある。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.
- Abstract(参考訳): 強化学習システムは、観察と報酬関数を指定する環境インターフェースに依存しているが、新しいタスクのためにこれらのインターフェースを構築するには、かなりの手作業が必要になることが多い。
近年の研究では,大規模言語モデル (LLM) を用いた報酬自動設計が試みられているが,これらの手法は固定的な観察を前提としており,完全なタスクインタフェースの合成というより広範な課題に対処していない。
我々はRLタスクインタフェースの探索を生のシミュレータの状態から検討し、そこでは観測マッピングと報酬関数の両方を生成する必要がある。
我々は LLM の進化的フレームワーク LIMEN (Code available at https://github.com/Lossfunk/LIMEN) を提案する。
新たな離散グリッドワールドタスクと、移動と操作にまたがる連続制御ドメイン、観察と報酬の合同進化は、軌道レベルの成功基準のみを与えられた効果的なインターフェースを発見し、一方、コンポーネントのみを最適化することは、少なくとも1つのドメインで失敗する。
これらの結果から, 実状態からのRLインタフェースの自動構築は手動工学を著しく減らし, 単一成分最適化は少なくとも1つの領域で破滅的に失敗するため, 観察・報酬成分が協調設計の恩恵を受けることが示唆された。
関連論文リスト
- Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - What Do Agents Learn from Trajectory-SFT: Semantics or Interfaces? [32.72487312750579]
最小限の書き直し環境インタフェースによるインタフェース依存の診断のためのプロトコルレベルの評価拡張であるPIPEを提案する。
AgentBenchとAgentGymの16の環境と、さまざまなオープンソースおよびAPIベースのエージェントから、PIPEは、trajectory-SFTがインターフェイスショートカットを大幅に増幅することを明らかにした。
さらに、トレーニング時間インタフェースの嗜好を定量化する対等なエイリアスに基づく計量であるInterface Reliance(IR)を導入する。
論文 参考訳(メタデータ) (2026-02-02T04:02:03Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。