論文の概要: LLMs for sensory-motor control: Combining in-context and iterative learning
- arxiv url: http://arxiv.org/abs/2506.04867v1
- Date: Thu, 05 Jun 2025 10:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.663751
- Title: LLMs for sensory-motor control: Combining in-context and iterative learning
- Title(参考訳): 感覚運動制御のためのLLM:文脈内学習と反復学習を組み合わせる
- Authors: Jônata Tyska Carvalho, Stefano Nolfi,
- Abstract要約: 本研究では,連続的な観察ベクトルを直接連続的な行動ベクトルにマッピングすることにより,大規模言語モデルによるエンボディエージェントの制御を可能にする手法を提案する。
この方法は、Gymnasiumライブラリの古典的な制御タスクと MuJoCoライブラリの逆振り子タスクで検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a method that enables large language models (LLMs) to control embodied agents by directly mapping continuous observation vectors to continuous action vectors. Initially, the LLMs generate a control strategy based on a textual description of the agent, its environment, and the intended goal. This strategy is then iteratively refined through a learning process in which the LLMs are repeatedly prompted to improve the current strategy, using performance feedback and sensory-motor data collected during its evaluation. The method is validated on classic control tasks from the Gymnasium library and the inverted pendulum task from the MuJoCo library. In most cases, it successfully identifies optimal or high-performing solutions by integrating symbolic knowledge derived through reasoning with sub-symbolic sensory-motor data gathered as the agent interacts with its environment.
- Abstract(参考訳): 本研究では,連続的な観測ベクトルを連続的な行動ベクトルに直接マッピングすることにより,大規模言語モデル(LLM)によるエンボディエージェントの制御を可能にする手法を提案する。
当初、LSMはエージェントのテキスト記述、その環境、意図した目標に基づいて制御戦略を生成する。
そして、その評価中に収集された性能フィードバックと感覚運動データを用いて、LLMを繰り返し促して現在の戦略を改善する学習プロセスを通じて、この戦略を反復的に洗練する。
この方法は、Gymnasiumライブラリの古典的な制御タスクと MuJoCoライブラリの逆振り子タスクで検証される。
ほとんどの場合、エージェントが環境と相互作用するときに収集された準記号的感覚運動データと推論によって導かれる記号的知識を統合することにより、最適な、あるいは高い性能のソリューションを識別することに成功した。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Lifelong Learning of Large Language Model based Agents: A Roadmap [39.01532420650279]
連続的・漸進的な学習として知られる生涯学習は、人工知能(AGI)を前進させる重要な要素である
この調査は、生涯学習を大規模言語モデル(LLM)に組み込むための潜在的テクニックを体系的にまとめる最初のものである。
これらの柱が集合的に連続的な適応を可能にし、破滅的な忘れを軽減し、長期的なパフォーマンスを向上させる方法について強調する。
論文 参考訳(メタデータ) (2025-01-13T12:42:04Z) - Active Inference for Self-Organizing Multi-LLM Systems: A Bayesian Thermodynamic Approach to Adaptation [0.0]
本稿では,大規模言語モデル(LLM)とアクティブ推論を統合し,適応型言語エージェントを作成するための新しいアプローチを提案する。
本フレームワークは,3つの状態要因(確率,探索,情報状態)を用いて環境をモデル化する。
実験により、エージェントが環境力学の正確なモデルを開発することにより、このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-12-10T16:34:47Z) - Controlling Large Language Model Agents with Entropic Activation Steering [20.56909601159833]
In-context Learning Agent のためのアクティベーションステアリングである Entropic Activation Steering (EAST) を導入する。
EAST は LLM の出力から解析された高レベルな動作に直接影響を与えることにより LLM エージェントの探索を効果的に操作できることを示す。
また, この制御を適用することで, LLMの思考に現れる不確実性を調節し, エージェントをより探索的な行動へと導くことも明らかにした。
論文 参考訳(メタデータ) (2024-06-01T00:25:00Z) - CtrlA: Adaptive Retrieval-Augmented Generation via Inherent Control [26.21425058462886]
大規模言語モデル(LLM)の幻覚を、検索された外部知識で緩和するための有望な解決策として、検索拡張世代(RAG)が出現している。
本稿では,適応的なRAGを表現的視点から解決し,固有な制御ベースフレームワークであるnameを開発するための最初の試みについて述べる。
実験により、名前は様々なタスクにおいて既存の適応RAG法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-29T03:17:16Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。