Fugu-MT 論文翻訳(概要): Sampling Through the Lens of Sequential Decision Making

論文の概要: Sampling Through the Lens of Sequential Decision Making

arxiv url: http://arxiv.org/abs/2208.08056v3
Date: Tue, 13 Dec 2022 16:36:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-19 10:33:43.913345
Title: Sampling Through the Lens of Sequential Decision Making
Title（参考訳）: シーケンス決定のレンズを通してのサンプリング
Authors: Jason Xiaotian Dou, Alvin Qingkai Pan, Runxue Bao, Haiyi Harry Mao, Lei Luo, Zhi-Hong Mao
Abstract要約: 我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
参考スコア（独自算出の注目度）: 9.101505546901999
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sampling is ubiquitous in machine learning methodologies. Due to the growth of large datasets and model complexity, we want to learn and adapt the sampling process while training a representation. Towards achieving this grand goal, a variety of sampling techniques have been proposed. However, most of them either use a fixed sampling scheme or adjust the sampling scheme based on simple heuristics. They cannot choose the best sample for model training in different stages. Inspired by "Think, Fast and Slow" (System 1 and System 2) in cognitive science, we propose a reward-guided sampling strategy called Adaptive Sample with Reward (ASR) to tackle this challenge. To the best of our knowledge, this is the first work utilizing reinforcement learning (RL) to address the sampling problem in representation learning. Our approach optimally adjusts the sampling process to achieve optimal performance. We explore geographical relationships among samples by distance-based sampling to maximize overall cumulative reward. We apply ASR to the long-standing sampling problems in similarity-based loss functions. Empirical results in information retrieval and clustering demonstrate ASR's superb performance across different datasets. We also discuss an engrossing phenomenon which we name as "ASR gravity well" in experiments.
Abstract（参考訳）: サンプリングは機械学習の方法論においてユビキタスである。大規模なデータセットの増加とモデルの複雑さのため、表現をトレーニングしながらサンプリングプロセスを学び、適応させたいと思っています。この大目標を達成するために、様々なサンプリング技術が提案されている。しかし、その多くは固定サンプリングスキームを使用するか、単純なヒューリスティックに基づいてサンプリングスキームを調整する。異なる段階のモデルトレーニングに最適なサンプルを選択することはできない。認知科学における"Think, Fast and Slow" (System 1 and System 2) に触発された我々は,この課題に取り組むために,Adaptive Sample with Reward (ASR) と呼ばれる報酬誘導サンプリング戦略を提案する。我々の知る限りでは、表現学習におけるサンプリング問題に対処するために強化学習(RL)を利用した最初の研究である。提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。距離に基づくサンプリングによりサンプル間の地理的関係を探索し,全体の累積報酬を最大化する。類似性に基づく損失関数の長期サンプリング問題にASRを適用した。情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。また,実験で「asr重力井戸」と名づけたエングロッシング現象についても考察した。

関連論文リスト

From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization [7.531052649961168]
検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法の枠組みであるLPPOを導入する。私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
論文参考訳（メタデータ） (2025-07-09T06:05:28Z)
Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文参考訳（メタデータ） (2024-10-02T11:33:13Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback [36.05851452151107]
統合学習(FL)システムは、トレーニングの各ラウンドに関与するクライアントのサブセットをサンプリングする必要があります。その重要性にもかかわらず、クライアントを効果的にサンプリングする方法には制限がある。提案手法は,最適化アルゴリズムの収束速度をいかに向上させるかを示す。
論文参考訳（メタデータ） (2021-12-28T23:50:52Z)
AutoSampling: Search for Effective Data Sampling Schedules [118.20014773014671]
モデル学習のためのサンプリングスケジュールを自動的に学習するAutoSampling法を提案する。提案手法の有効性を示す様々な画像分類タスクに本手法を適用した。
論文参考訳（メタデータ） (2021-05-28T09:39:41Z)
Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文参考訳（メタデータ） (2020-10-26T14:15:33Z)
Learning to Sample with Local and Global Contexts in Experience Replay Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2020-07-14T21:12:56Z)
Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文参考訳（メタデータ） (2020-02-17T13:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。