論文の概要: Learning to Coordinate with Experts
- arxiv url: http://arxiv.org/abs/2502.09583v2
- Date: Mon, 27 Oct 2025 21:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:35.715006
- Title: Learning to Coordinate with Experts
- Title(参考訳): 専門家と協調することを学ぶ
- Authors: Mohamad H. Danesh, Nguyen X. Khanh, Tu Trinh, Benjamin Plaut,
- Abstract要約: さまざまな環境にまたがってRC-0をインスタンス化するオープンソースベンチマークであるRC-Benchを紹介します。
検証戦略を提案し,様々な学習方法の評価を行い,今後の研究に資する知見を提供する。
- 参考スコア(独自算出の注目度): 4.014763913413721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deployed in the real world, AI agents will inevitably face challenges that exceed their individual capabilities. Leveraging assistance from experts, whether humans or highly capable AI systems, can significantly improve both safety and performance in such situations. Since expert assistance is costly, a central challenge is determining when to consult an expert. In this paper, we explore a novel variant of this problem, termed YRC-0, in which an agent must learn to collaborate with an expert in new environments in an unsupervised manner--that is, without interacting with the expert during training. This setting motivates the development of low-cost, robust approaches for training expert-leveraging agents. To support research in this area, we introduce YRC-Bench, an open-source benchmark that instantiates YRC-0 across diverse environments. YRC-Bench provides a standardized Gym-like API, simulated experts, an evaluation pipeline, and implementations of popular baselines. Toward tackling YRC-0, we propose a validation strategy and evaluate a range of learning methods, offering insights that can inform future research. Codebase: github.com/modanesh/YRC-Bench
- Abstract(参考訳): 現実世界に配備されると、AIエージェントは必然的に、個々の能力を超える課題に直面します。
人間であれ、高度なAIシステムであれ、専門家からの援助を活用すれば、そのような状況下での安全性とパフォーマンスの両方を大幅に改善できる。
専門家の援助は費用がかかるので、専門家がいつ専門家に相談するかを決めることが中心的な課題である。
本稿では、エージェントが教師なしの方法で、訓練中に専門家と対話することなく、新しい環境の専門家と協力し合うことを学ばなければならない、YRC-0と呼ばれるこの問題の新たな変種について検討する。
この設定は、専門家平均エージェントを訓練するための低コストで堅牢なアプローチの開発を動機付けている。
この分野での研究を支援するために、様々な環境にまたがってRC-0をインスタンス化するオープンソースのベンチマークであるRC-Benchを紹介します。
YRC-Benchは、標準化されたGymライクなAPI、シミュレートされた専門家、評価パイプライン、人気のあるベースラインの実装を提供する。
そこで本研究では,YRC-0に対処するための検証戦略を提案し,今後の研究に役立つ知見を提供する。
Codebase: github.com/modanesh/YRC-Bench
関連論文リスト
- Deep Reinforcement Learning Agents are not even close to Human Intelligence [25.836584192349907]
深部強化学習(RL)エージェントは、様々なタスクにおいて印象的な結果を得るが、ゼロショット適応能力は欠如している。
我々は、アーケード学習環境のタスクバリエーションのセットであるHackAtariを紹介する。
人間とは対照的に、RLエージェントは、トレーニングタスクのより単純なバージョンに対して、体系的に大きなパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2025-05-27T20:21:46Z) - HARP: Human-Assisted Regrouping with Permutation Invariant Critic for Multi-Agent Reinforcement Learning [22.820017018732994]
グループ指向タスクのための多エージェント強化学習フレームワークであるHARP(Human-Assisted Regrouping with Permutation Invariant Critic)を提案する。
HARPは、自動エージェント再編成と、展開中の戦略的人的支援を統合し、非専門家が効果的なガイダンスを提供することを可能にしている。
複数のコラボレーションシナリオにおいて、私たちのアプローチは、非専門家からの限られたガイダンスを活用でき、パフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2024-09-18T06:54:36Z) - TeamLoRA: Boosting Low-Rank Adaptation with Expert Collaboration and Competition [61.91764883512776]
我々は,専門家のためのコラボレーション・コンペティション・モジュールからなる,革新的なPEFT手法であるTeamLoRAを紹介する。
そうすることで、TeamLoRAは専門家を"チーム"として内部のコラボレーションや競争に結び付け、マルチタスク学習のためのより高速で正確なPEFTパラダイムを可能にします。
論文 参考訳(メタデータ) (2024-08-19T09:58:53Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - PromptAgent: Strategic Planning with Language Models Enables
Expert-level Prompt Optimization [60.00631098364391]
PromptAgentは、エキスパートレベルのプロンプトを、専門家による手工芸品と同等の品質で作成する最適化手法である。
PromptAgentは人間のような試行錯誤の探索にインスパイアされ、専門家レベルの正確な洞察と詳細な指示を誘導する。
PromptAgentを3つの実践領域にまたがる12のタスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T07:47:01Z) - IxDRL: A Novel Explainable Deep Reinforcement Learning Toolkit based on
Analyses of Interestingness [0.0]
面白さの分析に基づく新しい枠組みを提案する。
本ツールは,興味深い分析から得られたRLエージェント能力の様々な測定方法を提供する。
我々のフレームワークはエージェント設計者にRLエージェント能力に関する洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2023-07-18T02:43:19Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Towards Collaborative Question Answering: A Preliminary Study [63.91687114660126]
我々は、モデレーターによって調整された複数の専門家エージェントが協力して、単一のエージェントだけでは答えられない質問に答える新しいQAタスクCollabQAを提案する。
専門家に分散可能な,大規模な知識グラフの合成データセットを作成する。
専門家が完璧で均一でない限り,コラボレーション構造を導入することなく,この問題が解決可能であることを示す。
論文 参考訳(メタデータ) (2022-01-24T14:27:00Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。