Fugu-MT 論文翻訳(概要): A Comprehensive Survey on Inverse Constrained Reinforcement Learning: Definitions, Progress and Challenges

論文の概要: A Comprehensive Survey on Inverse Constrained Reinforcement Learning: Definitions, Progress and Challenges

arxiv url: http://arxiv.org/abs/2409.07569v2
Date: Sat, 21 Sep 2024 16:25:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 21:42:46.785177
Title: A Comprehensive Survey on Inverse Constrained Reinforcement Learning: Definitions, Progress and Challenges
Title（参考訳）: 逆制約強化学習に関する包括的調査:定義・進歩・課題
Authors: Guiliang Liu, Sheng Xu, Shicheng Liu, Ashish Gaurav, Sriram Ganapathi Subramanian, Pascal Poupart,
Abstract要約: 逆制約強化学習(英: Inverse Constrained Reinforcement Learning, ICRL)は、暗黙の制約を推論し、その実証データから専門家エージェントが続くタスクである。本論では, ICRLの最近の進歩について分類学的に考察する。 ICRLの定義、進歩、重要な課題を理解しようとする初心者だけでなく、機械学習の研究者や実践者にとっても包括的な参照として機能する。
参考スコア（独自算出の注目度）: 27.681999552782372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inverse Constrained Reinforcement Learning (ICRL) is the task of inferring the implicit constraints followed by expert agents from their demonstration data. As an emerging research topic, ICRL has received considerable attention in recent years. This article presents a categorical survey of the latest advances in ICRL. It serves as a comprehensive reference for machine learning researchers and practitioners, as well as starters seeking to comprehend the definitions, advancements, and important challenges in ICRL. We begin by formally defining the problem and outlining the algorithmic framework that facilitates constraint inference across various scenarios. These include deterministic or stochastic environments, environments with limited demonstrations, and multiple agents. For each context, we illustrate the critical challenges and introduce a series of fundamental methods to tackle these issues. This survey encompasses discrete, virtual, and realistic environments for evaluating ICRL agents. We also delve into the most pertinent applications of ICRL, such as autonomous driving, robot control, and sports analytics. To stimulate continuing research, we conclude the survey with a discussion of key unresolved questions in ICRL that can effectively foster a bridge between theoretical understanding and practical industrial applications.
Abstract（参考訳）: 逆制約強化学習(英: Inverse Constrained Reinforcement Learning, ICRL)は、暗黙の制約を推論し、その実証データから専門家エージェントが続くタスクである。 ICRLは近年,新たな研究トピックとして注目されている。本論では, ICRLの最近の進歩について分類学的に考察する。 ICRLの定義、進歩、重要な課題を理解しようとする初心者だけでなく、機械学習の研究者や実践者にとっても包括的な参照として機能する。まず、問題を正式に定義し、様々なシナリオにまたがる制約推論を容易にするアルゴリズムフレームワークの概要を説明します。これには決定論的または確率的環境、限られたデモのある環境、複数のエージェントが含まれる。それぞれの文脈について、批判的な課題を説明し、これらの問題に取り組むための基本的な方法を紹介します。この調査は、ICRLエージェントを評価するための離散的で仮想的で現実的な環境を含む。また、自律運転、ロボット制御、スポーツ分析など、ICRLの最も重要な応用についても調べる。本研究は, 理論的理解と産業応用の橋渡しを効果的に促進できる ICRL の重要な未解決問題について, 調査を締めくくった。

関連論文リスト

Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文参考訳（メタデータ） (2025-03-27T15:36:30Z)
A Comprehensive Survey of Reinforcement Learning: From Algorithms to Practical Challenges [2.2448567386846916]
強化学習(RL)は人工知能(AI)の強力なパラダイムとして登場した。本稿では,多種多様なアルゴリズムを巧みに分析するRLの包括的調査を行う。我々は、RLアルゴリズムの選択と実装に関する実践的な洞察を提供し、収束、安定性、探索-探索ジレンマといった共通の課題に対処する。
論文参考訳（メタデータ） (2024-11-28T03:53:14Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
A Comprehensive Survey on Evidential Deep Learning and Its Applications [64.83473301188138]
Evidential Deep Learning (EDL)は、単一のフォワードパスで最小限の追加計算で信頼性の高い不確実性推定を提供する。まず、主観的論理理論であるEDLの理論的基礎を掘り下げ、他の不確実性推定フレームワークとの区別について議論する。さまざまな機械学習パラダイムや下流タスクにまたがる広範な応用について詳しく述べる。
論文参考訳（メタデータ） (2024-09-07T05:55:06Z)
Safe and Robust Reinforcement Learning: Principles and Practice [0.0]
強化学習は比較的複雑なタスクの解決に顕著な成功を収めた。現実のシナリオにおけるRLシステムのデプロイは、安全性と堅牢性に関する重大な課題を生じさせる。本稿では, アルゴリズム, 倫理的, 実践的考察を含む安全で堅牢なRL景観の主次元について考察する。
論文参考訳（メタデータ） (2024-03-27T13:14:29Z)
Staged Reinforcement Learning for Complex Tasks through Decomposed Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文参考訳（メタデータ） (2023-11-05T19:43:23Z)
Deep Reinforcement Learning for Autonomous Cyber Defence: A Survey [0.0]
近年のサイバー攻撃の急増により、ネットワークを悪意ある行為者から守るための原則的な方法の必要性が高まっている。深層強化学習は、これらの攻撃を緩和するための有望なアプローチとして現れている。 DRLはサイバー防衛に大きな可能性を示しているが、DRLが大規模に自律的なサイバー防衛問題に適用される前には、多くの課題が克服されなければならない。
論文参考訳（メタデータ） (2023-10-11T16:24:14Z)
A Survey on Interpretable Cross-modal Reasoning [64.37362731950843]
マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる本調査では,I-CMRの3段階分類法について概説する。
論文参考訳（メタデータ） (2023-09-05T05:06:48Z)
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文参考訳（メタデータ） (2023-07-24T08:58:25Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Goal-Conditioned Reinforcement Learning: Problems and Solutions [21.51237981337685]
目標条件強化学習(GCRL)は、特定のシナリオ下で異なる目標を達成するためにエージェントを訓練する。本稿では,GCRLの課題とアルゴリズムについて概観する。
論文参考訳（メタデータ） (2022-01-20T17:06:42Z)
Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。 RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文参考訳（メタデータ） (2021-08-20T05:18:50Z)
RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。 RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文参考訳（メタデータ） (2020-06-24T17:14:51Z)
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study [50.79125250286453]
オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
論文参考訳（メタデータ） (2020-06-10T17:59:03Z)
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文参考訳（メタデータ） (2020-03-10T20:41:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。