論文の概要: A Generalised and Adaptable Reinforcement Learning Stopping Method
- arxiv url: http://arxiv.org/abs/2505.01907v2
- Date: Mon, 07 Jul 2025 16:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 22:02:55.05447
- Title: A Generalised and Adaptable Reinforcement Learning Stopping Method
- Title(参考訳): 一般化された適応型強化学習停止法
- Authors: Reem Bin-Hezam, Mark Stevenson,
- Abstract要約: 本稿では、強化学習(RL)に基づく技術支援レビュー(TAR)停止手法を提案する。
以前のアプローチでは、リコールやコストの最大化のために、ターゲットリコールとトレードオフの修正など、動作の停止を限定的に制御していた。
これらの制限は、単一のモデルを複数のターゲットリコールに適用できる新しいRL環境であるGRLStopを導入することで克服される。
- 参考スコア(独自算出の注目度): 9.335384756718867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a Technology Assisted Review (TAR) stopping approach based on Reinforcement Learning (RL). Previous such approaches offered limited control over stopping behaviour, such as fixing the target recall and tradeoff between preferring to maximise recall or cost. These limitations are overcome by introducing a novel RL environment, GRLStop, that allows a single model to be applied to multiple target recalls, balances the recall/cost tradeoff and integrates a classifier. Experiments were carried out on six benchmark datasets (CLEF e-Health datasets 2017-9, TREC Total Recall, TREC Legal and Reuters RCV1) at multiple target recall levels. Results showed that the proposed approach to be effective compared to multiple baselines in addition to offering greater flexibility.
- Abstract(参考訳): 本稿では,強化学習(RL)に基づく技術支援レビュー(TAR)停止手法を提案する。
以前のアプローチでは、リコールやコストの最大化のために、ターゲットリコールとトレードオフの修正など、動作の停止を限定的に制御していた。
これらの制限は、新しいRL環境であるGRLStopを導入し、単一のモデルを複数のターゲットリコールに適用し、リコール/コストトレードオフのバランスを取り、分類器を統合することで克服される。
6つのベンチマークデータセット(CLEF e-Health datasets 2017-9, TREC Total Recall, TREC Legal, Reuters RCV1)で、複数のターゲットリコールレベルで実験を行った。
その結果,提案手法は柔軟性の向上に加えて,複数のベースラインに比較して有効であることが示唆された。
関連論文リスト
- iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。
SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。
キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文 参考訳(メタデータ) (2025-04-08T03:40:19Z) - RLStop: A Reinforcement Learning Stopping Method for TAR [9.335384756718867]
本稿では、強化学習に基づく新しい技術支援レビュー(TAR)の停止ルールであるLStopを紹介する。
RLStopは、文書の検査を停止する最適な点を特定するために報酬関数を使用して、サンプルランキングに基づいて訓練される。
論文 参考訳(メタデータ) (2024-05-03T23:48:53Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。