論文の概要: Combining Trained Models in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.02159v1
- Date: Mon, 04 May 2026 02:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.110674
- Title: Combining Trained Models in Reinforcement Learning
- Title(参考訳): 強化学習における訓練モデルの組み合わせ
- Authors: Ujjwal Patil, Javad Ghofrani,
- Abstract要約: 深層強化学習(DRL)は、AtariやGoといったドメインで大きな成果を上げているが、それでも高いサンプルコストとトレーニング環境を超えて、弱い移行に悩まされている。
一般的な反応は、転送、蒸留、アンサンブル法、フェデレーショントレーニングを通じて、以前に訓練されたモデルの情報を再利用することである。
本稿では、DRLにおける事前学習知識の再利用に関する実証的研究について、PRISMA指導による体系的レビューを行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has delivered strong results in domains such as Atari and Go, but it still suffers from high sample cost and weak transfer beyond the training setting. A common response is to reuse information from previously trained models through transfer, distillation, ensemble methods, or federated training instead of learning each target task from random initialization. The literature on these mechanisms is fragmented, and published comparisons are hard to interpret because tasks, baselines, and compute budgets differ. This paper presents a PRISMA-guided systematic review of empirical studies on pretrained knowledge reuse in DRL. Starting from 589 records retrieved from IEEE Xplore, the ACM Digital Library, and citation tracing, we screened 570 unique records and assessed 89 full texts. After applying the final eligibility criteria, 15 empirical studies remained in the main synthesis. We analyzed them qualitatively across three factors: source-target similarity, diversity among reused models, and the fairness of comparisons against from-scratch baselines. Three patterns recur across the surviving corpus. First, positive results are concentrated in settings where source and target tasks share substantial structure or where the method includes an explicit gating or alignment mechanism. Second, evidence for ensembles and federated aggregation is promising but sparse and mostly limited to narrow settings. Third, compute-matched comparisons are rare, which weakens claims about efficiency gains over stronger single-agent baselines. The paper contributes a narrower and internally consistent review scope, a study-level synthesis of empirical evidence, and a provisional independence spectrum that should be treated as a hypothesis for future benchmarking rather than a validated metric.
- Abstract(参考訳): 深層強化学習(DRL)は、AtariやGoといったドメインで大きな成果を上げているが、それでも高いサンプルコストとトレーニング環境を超えて、弱い移行に悩まされている。
一般的な反応は、ランダム初期化から各タスクを学習する代わりに、転送、蒸留、アンサンブル法、フェデレーショントレーニングを通じて、以前に訓練されたモデルからの情報を再利用することである。
これらのメカニズムに関する文献は断片化されており、タスク、ベースライン、計算予算が異なるため、公表された比較は解釈が難しい。
本稿では、DRLにおける事前学習知識の再利用に関する実証的研究について、PRISMA指導による体系的レビューを行う。
IEEE Xplore, ACM Digital Library, および引用追跡から得られた589のレコードから, 570のユニークなレコードをスクリーニングし,89のフルテキストを評価した。
最終適性基準を適用した後も、15の実証的研究が主合成に留まった。
我々はこれらを,ソースターゲットの類似性,再利用モデル間の多様性,およびオフスクラッチベースラインとの比較の公平性という3つの要因で定性的に分析した。
3つのパターンが生き残ったコーパスに再出現する。
まず、ソースとターゲットタスクが実質的な構造を共有している設定や、メソッドが明示的なゲーティングやアライメント機構を含んでいる設定に、肯定的な結果が集中する。
第二に、アンサンブルや連合的なアグリゲーションの証拠は有望だが、そのほとんどは狭い設定に限られている。
第3に、計算整合比較はまれであり、より強力な単一エージェントベースラインよりも効率向上の主張を弱める。
この論文は、より狭く内部的に一貫したレビュー範囲、経験的証拠の研究レベルの合成、そして、検証された計量ではなく将来のベンチマークの仮説として扱われるべき暫定的な独立スペクトルに寄与する。
関連論文リスト
- Reducing Hallucinations in LLM-based Scientific Literature Analysis Using Peer Context Outlier Detection [15.38900394412587]
本稿では,文書間の関係を利用して抽出精度を向上させる手法であるPer Context Outlier Detection (P-COD)を提案する。
抽出したデータをコーパス内の検証されたピア情報と比較することにより、信頼性スコアの調整と、専門家レビューのための低信頼度結果のフラグ付けを行う。
実験では,6つの領域にわたる異常検出の精度を最大98%向上し,幻覚を低減し,自動システムの信頼性を高め,研究者があいまいなケースに集中できることを実証した。
論文 参考訳(メタデータ) (2026-04-01T23:15:59Z) - Trustworthiness Preservation by Copies of Machine Learning Systems [0.0]
データ上で複雑なクエリをモデル化し、検証するための計算を導入します。
我々は4つの異なる概念を定義している: 正当性、平等性、弱大性、ほぼ信頼に値する。
目的は、振る舞いが分かっているオリジナルのシステムからコピーされた、おそらく複雑なシステムの信頼性をチェックするための計算ツールを提供することである。
論文 参考訳(メタデータ) (2025-06-05T16:14:57Z) - Enhancing Study-Level Inference from Clinical Trial Papers via Reinforcement Learning-Based Numeric Reasoning [12.050619995670038]
我々はその問題を量的推論の1つとして概念化している。
本研究では,数値データ抽出モデルと効果推定成分からなる数値推論システムを開発する。
論文 参考訳(メタデータ) (2025-05-28T22:59:45Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections [5.8962650619804755]
関連する科学的概念間の意味的関係を推測することは重要なステップである。
BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。
既存の手法は主にクリーンテキストで評価される。
これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
論文 参考訳(メタデータ) (2023-05-03T17:32:16Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。