論文の概要: Interactive LLM-assisted Curriculum Learning for Multi-Task Evolutionary Policy Search
- arxiv url: http://arxiv.org/abs/2602.10891v1
- Date: Wed, 11 Feb 2026 14:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.993259
- Title: Interactive LLM-assisted Curriculum Learning for Multi-Task Evolutionary Policy Search
- Title(参考訳): マルチタスク進化的ポリシー探索のための対話型LCM支援カリキュラム学習
- Authors: Berfin Sakallioglu, Giorgia Nadizar, Eric Medvet,
- Abstract要約: 進化的最適化プロセスからリアルタイムにフィードバックを得られるオンラインカリキュラム生成のための対話型LCM支援フレームワークを提案する。
対話型カリキュラム生成は,プログレッシブプロットとビヘイビアビジュアライゼーションの両方のマルチモーダルフィードバックによって,専門家が設計したキュリキュラと競合する性能を実現するため,静的なアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.20734358984482407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-task policy search is a challenging problem because policies are required to generalize beyond training cases. Curriculum learning has proven to be effective in this setting, as it introduces complexity progressively. However, designing effective curricula is labor-intensive and requires extensive domain expertise. LLM-based curriculum generation has only recently emerged as a potential solution, but was limited to operate in static, offline modes without leveraging real-time feedback from the optimizer. Here we propose an interactive LLM-assisted framework for online curriculum generation, where the LLM adaptively designs training cases based on real-time feedback from the evolutionary optimization process. We investigate how different feedback modalities, ranging from numeric metrics alone to combinations with plots and behavior visualizations, influence the LLM ability to generate meaningful curricula. Through a 2D robot navigation case study, tackled with genetic programming as optimizer, we evaluate our approach against static LLM-generated curricula and expert-designed baselines. We show that interactive curriculum generation outperforms static approaches, with multimodal feedback incorporating both progression plots and behavior visualizations yielding performance competitive with expert-designed curricula. This work contributes to understanding how LLMs can serve as interactive curriculum designers for embodied AI systems, with potential extensions to broader evolutionary robotics applications.
- Abstract(参考訳): マルチタスクポリシーサーチは、トレーニングケースを超えて、ポリシーを一般化する必要があるため、難しい問題である。
カリキュラム学習は、複雑さを徐々に導入するので、この設定で効果的であることが証明されている。
しかし、効果的なカリキュラムを設計するには労働集約的であり、幅広い分野の専門知識が必要である。
LLMベースのカリキュラム生成は、潜在的な解決策として最近登場したばかりであるが、オプティマイザからのリアルタイムフィードバックを活用せずに、静的なオフラインモードで動作するように制限されていた。
本稿では、オンラインカリキュラム生成のための対話型LLM支援フレームワークを提案し、LLMは進化最適化プロセスからのリアルタイムフィードバックに基づいて学習事例を適応的に設計する。
本研究では,数値メトリクスのみからプロットとビヘイビアビジュアライゼーションの組み合わせに至るまで,異なるフィードバックのモダリティが,有意義なキュリキュラを生成するLLM能力にどのように影響するかを検討する。
遺伝的プログラミングを最適化として取り組んだ2次元ロボットナビゲーションケーススタディを通じて,静的LLM生成カリキュラムとエキスパート設計ベースラインに対するアプローチを評価した。
対話型カリキュラム生成は,プログレッシブプロットとビヘイビアビジュアライゼーションの両方を取り入れたマルチモーダルフィードバックによって,専門家が設計したカリキュラムと競合する性能を実現することで,静的なアプローチよりも優れることを示す。
この研究は、LLMがAIシステムのためのインタラクティブなカリキュラムデザイナとして機能し、より広範な進化的ロボティクスアプリケーションの拡張に寄与する。
関連論文リスト
- Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文 参考訳(メタデータ) (2025-10-29T12:08:07Z) - A Systematic Survey on Large Language Models for Evolutionary Optimization: From Modeling to Solving [26.501685261132124]
大規模言語モデル(LLM)は、最適化問題に対処するためにますます研究されている。
急速な進歩にもかかわらず、この分野は依然として統一的な合成と体系的な分類を欠いている。
この調査は、最近の開発を包括的にレビューし、構造化されたフレームワーク内でそれらを整理することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-09-10T04:05:54Z) - Advancing Compositional LLM Reasoning with Structured Task Relations in Interactive Multimodal Communications [42.945657927971]
本稿では,無線ネットワーク上での単一合成LLMを用いて,多様なIMAを実現する新しいパラダイムを提案する。
最初の課題に取り組むために、我々はILMを案内する新しい方法であるContextLoRAを提案し、IMA間のリッチな構造化コンテキストを学習する。
3つのベンチマークの実験は、提案されたContextLoRAとContextGearの優位性を示している。
論文 参考訳(メタデータ) (2025-07-28T09:33:12Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [12.54425217318534]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では、FEMモジュールと協調して事前訓練された大規模言語モデル(LLM)を利用して、構造設計を自律的に生成、評価、洗練するフレームワークを提案する。
LLMはドメイン固有の微調整なしで動作し、設計候補を提案し、FEMから派生した性能指標を解釈し、構造的な音響修正を適用する。
NSGA-II (Non-Sorting Genetic Algorithm II) と比較して,本手法はより高速に収束し,より少ないFEM評価を実現する。
論文 参考訳(メタデータ) (2024-04-26T16:41:24Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。