論文の概要: elsciRL: Integrating Language Solutions into Reinforcement Learning Problem Settings
- arxiv url: http://arxiv.org/abs/2507.08705v1
- Date: Fri, 11 Jul 2025 16:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.414633
- Title: elsciRL: Integrating Language Solutions into Reinforcement Learning Problem Settings
- Title(参考訳): elsciRL:強化学習問題設定への言語ソリューションの統合
- Authors: Philip Osborne, Danilo S. Carvalho, André Freitas,
- Abstract要約: elsciRLはオープンソースのPythonライブラリで、強化学習問題への言語ソリューションの適用を容易にする。
ユーザが LLM に対してテキスト入力を提供して,自己完結可能な命令を生成する新しい GUI を提供する。
- 参考スコア(独自算出の注目度): 10.777646083061395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present elsciRL, an open-source Python library to facilitate the application of language solutions on reinforcement learning problems. We demonstrate the potential of our software by extending the Language Adapter with Self-Completing Instruction framework defined in (Osborne, 2024) with the use of LLMs. Our approach can be re-applied to new applications with minimal setup requirements. We provide a novel GUI that allows a user to provide text input for an LLM to generate instructions which it can then self-complete. Empirical results indicate that these instructions \textit{can} improve a reinforcement learning agent's performance. Therefore, we present this work to accelerate the evaluation of language solutions on reward based environments to enable new opportunities for scientific discovery.
- Abstract(参考訳): 我々は、強化学習問題に対する言語ソリューションの適用を容易にするオープンソースのPythonライブラリであるelsciRLを提案する。
我々は,LLMを用いて,Language Adapterを(Osborne,2024)で定義されたセルフコンプリートインストラクションフレームワークで拡張することで,ソフトウェアの可能性を示す。
私たちのアプローチは、最小限のセットアップ要件で新しいアプリケーションに再適用できます。
ユーザが LLM に対してテキスト入力を提供して,自己完結可能な命令を生成する新しい GUI を提供する。
実験結果から,これらの命令であるtextit{can} が強化学習エージェントの性能を向上させることが示唆された。
そこで本稿では,報酬に基づく環境下での言語ソリューションの評価を高速化し,科学的発見の新たな機会を実現する。
関連論文リスト
- debug-gym: A Text-Based Environment for Interactive Debugging [55.11603087371956]
大規模言語モデル(LLM)は、コーディングタスクにますます依存している。
LLMは、タスクに関連する情報を集めるために対話的にAを探索する能力の恩恵を受けることができると仮定する。
対話型符号化環境において,LLMベースのエージェントを開発するためのテキスト環境,すなわちデバッグジャムを提案する。
論文 参考訳(メタデータ) (2025-03-27T14:43:28Z) - Prompt and circumstance: A word-by-word LLM prompting approach to interlinear glossing for low-resource languages [6.4977738682502295]
SIGMORPHON 2023共有タスクから7つの言語に適用した,検索に基づくLLM探索手法の有効性について検討した。
我々のシステムは、形態素レベルスコアカテゴリーの全ての言語に対するBERTベースの共有タスクベースラインを破る。
Tsez のケーススタディでは,LLM に言語命令の自動生成と追従を依頼し,難解な文法的特徴の誤りを低減させる。
論文 参考訳(メタデータ) (2025-02-13T21:23:16Z) - Multilingual Prompts in LLM-Based Recommenders: Performance Across Languages [0.0]
この研究は、非英語のプロンプトがレコメンデーションパフォーマンスに与える影響を探求する。
ML1M、LastFM、Amazon-Beautyの3つの実世界のデータセットの評価は、非英語プロンプトの使用が一般的にパフォーマンスを低下させることを示した。
多言語プロンプトによるリトレーニングにより、言語間のバランスの取れたパフォーマンスが向上したが、英語のパフォーマンスはわずかに低下した。
論文 参考訳(メタデータ) (2024-09-11T20:31:42Z) - Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。
これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。
研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:08Z) - Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文 参考訳(メタデータ) (2024-02-07T21:08:49Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Lessons from Building StackSpot AI: A Contextualized AI Coding Assistant [2.268415020650315]
大規模言語モデル上に構築された新しいタイプのツールが登場しつつある。
これらのツールは、微調整やコンテキスト情報によるユーザプロンプトの強化といった手法を用いて、欠点を軽減することを目的としている。
論文 参考訳(メタデータ) (2023-11-30T10:51:26Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。