Fugu-MT 論文翻訳(概要): Leveraging Importance Weights in Subset Selection

論文の概要: Leveraging Importance Weights in Subset Selection

arxiv url: http://arxiv.org/abs/2301.12052v1
Date: Sat, 28 Jan 2023 02:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 19:22:30.133462
Title: Leveraging Importance Weights in Subset Selection
Title（参考訳）: サブセット選択における重要度の導入
Authors: Gui Citovsky, Giulia DeSalvo, Sanjiv Kumar, Srikumar Ramalingam, Afshin Rostamizadeh, Yunjuan Wang
Abstract要約: 本稿では,任意のモデルファミリを実用的なバッチ設定で扱うように設計されたサブセット選択アルゴリズムを提案する。我々のアルゴリズムであるIWeSは、各サンプルに割り当てられたサンプリング確率が、以前選択されたバッチで訓練されたモデルのエントロピーに基づいて、重要サンプリングによってサンプルを選択する。
参考スコア（独自算出の注目度）: 45.54597544672441
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a subset selection algorithm designed to work with arbitrary model families in a practical batch setting. In such a setting, an algorithm can sample examples one at a time but, in order to limit overhead costs, is only able to update its state (i.e. further train model weights) once a large enough batch of examples is selected. Our algorithm, IWeS, selects examples by importance sampling where the sampling probability assigned to each example is based on the entropy of models trained on previously selected batches. IWeS admits significant performance improvement compared to other subset selection algorithms for seven publicly available datasets. Additionally, it is competitive in an active learning setting, where the label information is not available at selection time. We also provide an initial theoretical analysis to support our importance weighting approach, proving generalization and sampling rate bounds.
Abstract（参考訳）: 本稿では,任意のモデルファミリと組むように設計したサブセット選択アルゴリズムを提案する。このような設定では、アルゴリズムは一度に1つのサンプルをサンプリングできるが、オーバーヘッドコストを制限するために、十分な量のサンプルが選択されると、その状態(つまり、さらなるトレーニングモデル重み)を更新できるだけである。 IWeSアルゴリズムは、各サンプルに割り当てられたサンプリング確率が、以前選択されたバッチでトレーニングされたモデルのエントロピーに基づいて、重要サンプリングによってサンプルを選択する。 IWeSは7つの公開データセットの他のサブセット選択アルゴリズムと比較して、大幅なパフォーマンス向上を認めた。また、選択時にラベル情報を利用できないアクティブラーニング環境では競争力がある。また,重み付け手法の重要性を裏付ける最初の理論解析を行い,一般化とサンプリング率の限界を証明した。

関連論文リスト

Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [41.4789135538612]
本稿では,各サンプルの品質評価から,各サンプルのコントリビューション値の比較に焦点を移す,新しい選択型サンプル選択フレームワークを提案する。 LLM(Large Language Models)の高度な言語理解機能により,LLMを用いて選択過程における各オプションの価値を評価する。
論文参考訳（メタデータ） (2025-03-04T07:32:41Z)
Algorithm Selection with Probing Trajectories: Benchmarking the Choice of Classifier Model [0.20718016474717196]
BBOBベンチマークスイートを用いた分類タスクにおいて、17の異なる分類器と3種類のトラジェクトリを用いてベンチマーク研究を行う。分類器の選択は、特徴ベースのモデルと間隔ベースのモデルが最良の選択であることを示している。
論文参考訳（メタデータ） (2025-01-20T11:28:45Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文参考訳（メタデータ） (2024-07-09T23:09:18Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
ActiveDC: Distribution Calibration for Active Finetuning [36.64444238742072]
本研究では,アクティブ微調整タスクのためのActiveDCと呼ばれる新しい手法を提案する。我々は,無ラベルプールにおける暗黙のカテゴリ情報を利用して,選択したサンプルの分布を校正する。その結果,ActiveDCは画像分類タスクのベースライン性能を一貫して上回ることがわかった。
論文参考訳（メタデータ） (2023-11-13T14:35:18Z)
Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文参考訳（メタデータ） (2023-09-29T15:50:14Z)
Efficient Failure Pattern Identification of Predictive Algorithms [15.02620042972929]
本稿では,人間のアノテータチームとシーケンシャルレコメンデーションアルゴリズムからなる人間機械協調フレームワークを提案する。その結果、様々な信号対雑音比で複数のデータセット上でのフレームワークの競合性能を実証的に実証した。
論文参考訳（メタデータ） (2023-06-01T14:54:42Z)
Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文参考訳（メタデータ） (2021-09-01T23:52:29Z)
Batch Active Learning at Scale [39.26441165274027]
バッチクエリをラベル付けオラクルに適応的に発行するバッチアクティブラーニングは、この問題に対処するための一般的なアプローチである。本研究では,大規模なバッチ設定に着目した効率的な能動学習アルゴリズムを解析する。本研究では,不確実性と多様性の概念を組み合わせたサンプリング手法について,従来より数桁大きなバッチサイズ(100K-1M)に容易にスケール可能であることを示す。
論文参考訳（メタデータ） (2021-07-29T18:14:05Z)
Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文参考訳（メタデータ） (2020-10-19T19:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。