Fugu-MT 論文翻訳(概要): Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research

論文の概要: Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research

arxiv url: http://arxiv.org/abs/2107.03015v1
Date: Wed, 7 Jul 2021 04:45:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-09 00:16:11.735492
Title: Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research
Title（参考訳）: 実世界における深層強化学習の進展評価--ドメイン非依存研究とドメイン特化研究の連携
Authors: Juan Jose Garau-Luis and Edward Crawley and Bruce Cameron
Abstract要約: 深層強化学習(Dep Reinforcement Learning, DRL)は、多くの現実世界の自律システムを改善するための潜在的なフレームワークと考えられている。我々は、ドメインに依存しないコミュニティとドメイン固有のコミュニティの両方の研究成果をレビューし、評価することで、この問題に焦点を当てる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deep Reinforcement Learning (DRL) is considered a potential framework to improve many real-world autonomous systems; it has attracted the attention of multiple and diverse fields. Nevertheless, the successful deployment in the real world is a test most of DRL models still need to pass. In this work we focus on this issue by reviewing and evaluating the research efforts from both domain-agnostic and domain-specific communities. On one hand, we offer a comprehensive summary of DRL challenges and summarize the different proposals to mitigate them; this helps identifying five gaps of domain-agnostic research. On the other hand, from the domain-specific perspective, we discuss different success stories and argue why other models might fail to be deployed. Finally, we take up on ways to move forward accounting for both perspectives.
Abstract（参考訳）: 深層強化学習(Dep Reinforcement Learning, DRL)は多くの実世界の自律システムを改善するための潜在的なフレームワークと考えられている。それでも、現実世界でのデプロイメントの成功は、DRLモデルの大部分をパスする必要のあるテストである。本研究では、ドメインに依存しないコミュニティとドメイン固有のコミュニティの両方の研究成果をレビューし、評価することで、この問題に焦点を当てる。一方、DRLの課題を包括的に要約し、それらを緩和するための異なる提案をまとめ、ドメインに依存しない5つの研究のギャップを特定するのに役立つ。一方、ドメイン固有の観点から異なる成功ストーリーについて議論し、なぜ他のモデルがデプロイされないのかについて議論する。最後に、両方の観点で経理を前進させる方法を取り上げます。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
Diffusion Models for Reinforcement Learning: Foundations, Taxonomy, and Development [32.14985932997508]
拡散モデル(DM)は強化学習(RL)の重要な利点を提供するこのサーベイは拡散に基づくRLの包括的かつ最新の合成を提供する。
論文参考訳（メタデータ） (2025-10-14T08:03:46Z)
A Survey on Video Anomaly Detection via Deep Learning: Human, Vehicle, and Environment [2.3349787245442966]
ビデオ異常検出(VAD)は、コンピュータビジョンにおいて重要なタスクとして登場し、複数の分野にまたがる幅広い関連性を持つ。近年のディープラーニングの進歩はこの分野に大きな進歩をもたらしているが、この分野はドメインや学習パラダイムにまたがって断片化されている。この調査は、様々な監督レベルの文献を体系的に整理し、VADに関する包括的な視点を提供する。
論文参考訳（メタデータ） (2025-08-19T18:50:49Z)
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning [32.665418383317224]
本稿では,RLVRフレームワーク内でのマルチドメイン推論を体系的に検討する。数学的推論、コード生成、論理パズル解という3つの主要な領域に注目します。私たちの結果は、ドメイン間相互作用を管理するダイナミクスに関する重要な洞察を与えます。
論文参考訳（メタデータ） (2025-07-23T13:51:04Z)
Domain Generalization for Person Re-identification: A Survey Towards Domain-Agnostic Person Matching [9.437150525177383]
人物再識別(ReID)は、重複しないカメラビューで撮影された同一人物の画像を取得することを目的としている。従来のReIDメソッドは、視点、背景、照明条件の変化によって引き起こされるドメインシフトによって、目に見えない領域に一般化できない。近年,多様な環境における一般化を促進するための様々な手法が研究されている。
論文参考訳（メタデータ） (2025-06-14T09:15:00Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文参考訳（メタデータ） (2024-06-17T15:59:49Z)
Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文参考訳（メタデータ） (2023-11-22T09:18:49Z)
Iteratively Learn Diverse Strategies with State Distance Information [18.509323383456707]
複雑な強化学習問題では、同様の報酬を持つポリシーは、かなり異なる振る舞いを持つ可能性がある。そこで本研究では, 多様性駆動型RLアルゴリズム, SIPO (State-based Intrinsic-Reward Policy Optimization) を開発した。
論文参考訳（メタデータ） (2023-10-23T02:41:34Z)
Perturbation-Based Two-Stage Multi-Domain Active Learning [31.073745612552926]
本稿では、よく認識されたASP-MTLモデルに組み込んだ摂動型2段階多段階アクティブラーニング(P2S-MDAL)手法を提案する。 P2S-MDALは、ドメインの予算を割り当て、多様性の選択のための領域を確立する。モデルの共有特徴抽出器のロバスト性を評価するために摂動距離が導入された。
論文参考訳（メタデータ） (2023-06-19T04:58:32Z)
A Comprehensive Survey on Source-free Domain Adaptation [69.17622123344327]
ソースフリードメイン適応(SFDA)の研究は近年注目を集めている。 SFDAの最近の進歩を包括的に調査し、それらを統一的な分類体系に整理する。一般的な3つの分類基準で30以上のSFDA法を比較検討した。
論文参考訳（メタデータ） (2023-02-23T06:32:09Z)
A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning [53.35317176453194]
データ拡張(DA)は、サンプル効率と一般化可能なポリシーを取得するために視覚的RLで広く使われている技術である。本稿では、視覚的RLで使用されている既存の拡張技法の原則的な分類法を提案し、拡張データをどのように活用するかを詳細に議論する。視覚的RLにおけるDAに関する最初の総合的な調査として、この研究は、この新興分野に貴重なガイダンスを提供するものと期待されている。
論文参考訳（メタデータ） (2022-10-10T11:01:57Z)
Label Distribution Learning for Generalizable Multi-source Person Re-identification [48.77206888171507]
人物再識別(Re-ID)は,映像監視システムにおいて重要な技術である。教師付きモデルを任意の未確認領域に直接適用することは困難である。一般化可能な多ソース人物Re-IDタスクに対処する新しいラベル分散学習法(LDL)を提案する。
論文参考訳（メタデータ） (2022-04-12T15:59:10Z)
On Learning Domain-Invariant Representations for Transfer Learning with Multiple Sources [21.06231751703114]
対象の一般損失に対する新たな上限を開発し、2種類のドメイン不変表現を定義した。我々は、各ドメイン不変表現の学習を強制することの利点と欠点、およびトレードオフについて研究する。
論文参考訳（メタデータ） (2021-11-27T06:14:28Z)
Reappraising Domain Generalization in Neural Networks [8.06370138649329]
機械学習アルゴリズムのドメイン一般化(DG)は、複数のトレーニング分布からドメインに依存しない仮説を学習する能力として定義される。経験的リスク最小化(ERM)ベースラインは,既存のDG手法を一貫して上回っていることがわかった。そこで我々は,各クラスに対してランダムにドメインを選択して,それをテスト用として保持する,クラスワイズDGの定式化を提案する。
論文参考訳（メタデータ） (2021-10-15T10:06:40Z)
Distributed Deep Reinforcement Learning: An Overview [0.0]
本稿では,DRLにおける分散アプローチの役割について調査する。本稿では,DRLにおける分散手法の活用方法に大きな影響を与える重要な研究成果について概説する。また,これらの手法を異なるタスクで評価し,その性能を1人のアクターと学習者エージェントで比較する。
論文参考訳（メタデータ） (2020-11-22T13:24:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。