Fugu-MT 論文翻訳(概要): Measuring Data Quality for Dataset Selection in Offline Reinforcement Learning

論文の概要: Measuring Data Quality for Dataset Selection in Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2111.13461v1
Date: Fri, 26 Nov 2021 12:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-29 17:16:45.070846
Title: Measuring Data Quality for Dataset Selection in Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習におけるデータセット選択のためのデータ品質測定
Authors: Phillip Swazinna, Steffen Udluft, Thomas Runkler
Abstract要約: 最近開発されたオフライン強化学習アルゴリズムにより、事前コンパイルされたデータセットから直接ポリシーを学習できるようになった。アルゴリズムが提供できるパフォーマンスは、それらに提示されるデータセットに大きく依存するため、実践者は利用可能なデータセットの中から適切なデータセットを選択する必要がある。予測相対回帰改善(ERI)、推定行動相対性(EAS)、および2つの組み合わせ(COI)の3つの非常に単純な指標を提案する。
参考スコア（独自算出の注目度）: 2.3333090554192615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently developed offline reinforcement learning algorithms have made it possible to learn policies directly from pre-collected datasets, giving rise to a new dilemma for practitioners: Since the performance the algorithms are able to deliver depends greatly on the dataset that is presented to them, practitioners need to pick the right dataset among the available ones. This problem has so far not been discussed in the corresponding literature. We discuss ideas how to select promising datasets and propose three very simple indicators: Estimated relative return improvement (ERI) and estimated action stochasticity (EAS), as well as a combination of the two (COI), and empirically show that despite their simplicity they can be very effectively used for dataset selection.
Abstract（参考訳）: 最近開発されたオフライン強化学習アルゴリズムによって、事前に収集したデータセットから直接ポリシを学習することが可能になり、実践者に新たなジレンマがもたらされた。この問題は、これまでのところ、対応する文献では議論されていない。予測相対回帰改善(eri)と予測行動確率性(eas)の3つの非常に単純な指標と、2つの組み合わせ(coi)を組み合わせることで、そのシンプルさにもかかわらず、データセットの選択に非常に効果的に使用できることを示す。

関連論文リスト

RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-06-26T06:28:56Z)
Unifying and Optimizing Data Values for Selection via Sequential-Decision-Making [5.755427480127593]
本研究では,選択に適用されるデータ値を逐次決定問題として再定義可能であることを示す。本稿では,学習された二部グラフを代理ユーティリティモデルとして用いた効率的な近似手法を提案する。
論文参考訳（メタデータ） (2025-02-06T23:03:10Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文参考訳（メタデータ） (2024-09-18T14:13:24Z)
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison [9.324894567200582]
選好データセットを、スケール、ラベルノイズ、情報内容の3つの視点で体系的に研究する。我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。
論文参考訳（メタデータ） (2024-09-15T03:55:03Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。既存の調査では、微調整フェーズの詳細な調査を見落としている。特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Exploring Data Redundancy in Real-world Image Classification through Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文参考訳（メタデータ） (2023-06-25T03:31:05Z)
Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文参考訳（メタデータ） (2021-06-02T11:39:25Z)
S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。 6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文参考訳（メタデータ） (2020-08-18T11:44:10Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。