論文の概要: Learning to Coordinate with Experts
- arxiv url: http://arxiv.org/abs/2502.09583v1
- Date: Thu, 13 Feb 2025 18:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:15.206781
- Title: Learning to Coordinate with Experts
- Title(参考訳): 専門家と協調することを学ぶ
- Authors: Mohamad H. Danesh, Tu Trinh, Benjamin Plaut, Nguyen X. Khanh,
- Abstract要約: 我々は、学習と要求制御という基本的な調整問題を導入する。
目的は、いつ自律的に行動すべきか、いつ専門家の援助を求めるのかを決定する戦略を学ぶことである。
実証研究を容易にするために,多様なドメインを特徴とするオープンソースベンチマークであるRC-Benchを紹介した。
- 参考スコア(独自算出の注目度): 5.012314384895538
- License:
- Abstract: When deployed in dynamic environments, AI agents will inevitably encounter challenges that exceed their individual capabilities. Leveraging assistance from expert agents-whether human or AI-can significantly enhance safety and performance in such situations. However, querying experts is often costly, necessitating the development of agents that can efficiently request and utilize expert guidance. In this paper, we introduce a fundamental coordination problem called Learning to Yield and Request Control (YRC), where the objective is to learn a strategy that determines when to act autonomously and when to seek expert assistance. We consider a challenging practical setting in which an agent does not interact with experts during training but must adapt to novel environmental changes and expert interventions at test time. To facilitate empirical research, we introduce YRC-Bench, an open-source benchmark featuring diverse domains. YRC-Bench provides a standardized Gym-like API, simulated experts, evaluation pipeline, and implementation of competitive baselines. Towards tackling the YRC problem, we propose a novel validation approach and investigate the performance of various learning methods across diverse environments, yielding insights that can guide future research.
- Abstract(参考訳): 動的環境にデプロイされると、AIエージェントは必然的に、個々の能力を超える課題に遭遇する。
人間であれAIであれ、専門家の助けを借りることで、そのような状況下での安全性とパフォーマンスを大幅に向上させることができる。
しかし、専門家の問い合わせには費用がかかることが多く、専門家の指導を効率的に要求し活用できるエージェントの開発が必要である。
本稿では,YRC(Learning to Yield and Request Control)という,自律的かつ専門的な支援を求めるタイミングを決定する戦略を学習することを目的とした,基本的な調整問題を紹介する。
我々は,エージェントが訓練中に専門家と対話せず,新しい環境変化や試験時の専門家の介入に適応しなければならない,困難な実践的状況について考察する。
実証研究を容易にするために,多様なドメインを特徴とするオープンソースベンチマークであるRC-Benchを紹介した。
YRC-Benchは、標準化されたGymライクなAPI、シミュレートされた専門家、評価パイプライン、競合するベースラインの実装を提供する。
そこで本研究では,YRC問題に対処するための新しい検証手法を提案し,多様な環境における様々な学習手法の性能について検討し,今後の研究の指針となる知見を得た。
関連論文リスト
- HARP: Human-Assisted Regrouping with Permutation Invariant Critic for Multi-Agent Reinforcement Learning [22.820017018732994]
グループ指向タスクのための多エージェント強化学習フレームワークであるHARP(Human-Assisted Regrouping with Permutation Invariant Critic)を提案する。
HARPは、自動エージェント再編成と、展開中の戦略的人的支援を統合し、非専門家が効果的なガイダンスを提供することを可能にしている。
複数のコラボレーションシナリオにおいて、私たちのアプローチは、非専門家からの限られたガイダンスを活用でき、パフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2024-09-18T06:54:36Z) - TeamLoRA: Boosting Low-Rank Adaptation with Expert Collaboration and Competition [61.91764883512776]
我々は,専門家のためのコラボレーション・コンペティション・モジュールからなる,革新的なPEFT手法であるTeamLoRAを紹介する。
そうすることで、TeamLoRAは専門家を"チーム"として内部のコラボレーションや競争に結び付け、マルチタスク学習のためのより高速で正確なPEFTパラダイムを可能にします。
論文 参考訳(メタデータ) (2024-08-19T09:58:53Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - PromptAgent: Strategic Planning with Language Models Enables
Expert-level Prompt Optimization [60.00631098364391]
PromptAgentは、エキスパートレベルのプロンプトを、専門家による手工芸品と同等の品質で作成する最適化手法である。
PromptAgentは人間のような試行錯誤の探索にインスパイアされ、専門家レベルの正確な洞察と詳細な指示を誘導する。
PromptAgentを3つの実践領域にまたがる12のタスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T07:47:01Z) - IxDRL: A Novel Explainable Deep Reinforcement Learning Toolkit based on
Analyses of Interestingness [0.0]
面白さの分析に基づく新しい枠組みを提案する。
本ツールは,興味深い分析から得られたRLエージェント能力の様々な測定方法を提供する。
我々のフレームワークはエージェント設計者にRLエージェント能力に関する洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2023-07-18T02:43:19Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Towards Collaborative Question Answering: A Preliminary Study [63.91687114660126]
我々は、モデレーターによって調整された複数の専門家エージェントが協力して、単一のエージェントだけでは答えられない質問に答える新しいQAタスクCollabQAを提案する。
専門家に分散可能な,大規模な知識グラフの合成データセットを作成する。
専門家が完璧で均一でない限り,コラボレーション構造を導入することなく,この問題が解決可能であることを示す。
論文 参考訳(メタデータ) (2022-01-24T14:27:00Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。