Fugu-MT 論文翻訳(概要): Active Learning for Regression with Aggregated Outputs

論文の概要: Active Learning for Regression with Aggregated Outputs

arxiv url: http://arxiv.org/abs/2210.01329v1
Date: Tue, 4 Oct 2022 02:45:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 12:56:28.023579
Title: Active Learning for Regression with Aggregated Outputs
Title（参考訳）: 集約出力による回帰のアクティブラーニング
Authors: Tomoharu Iwata
Abstract要約: 本稿では,ラベル付き集合を逐次選択し,ラベル付き集合を減らして予測性能を向上させる能動的学習法を提案する。種々のデータセットを用いた実験により,提案手法は既存の手法よりもラベル付き集合が少なく,予測性能が向上することを示した。
参考スコア（独自算出の注目度）: 28.40183946090337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the privacy protection or the difficulty of data collection, we cannot observe individual outputs for each instance, but we can observe aggregated outputs that are summed over multiple instances in a set in some real-world applications. To reduce the labeling cost for training regression models for such aggregated data, we propose an active learning method that sequentially selects sets to be labeled to improve the predictive performance with fewer labeled sets. For the selection measurement, the proposed method uses the mutual information, which quantifies the reduction of the uncertainty of the model parameters by observing the aggregated output. With Bayesian linear basis functions for modeling outputs given an input, which include approximated Gaussian processes and neural networks, we can efficiently calculate the mutual information in a closed form. With the experiments using various datasets, we demonstrate that the proposed method achieves better predictive performance with fewer labeled sets than existing methods.
Abstract（参考訳）: プライバシ保護やデータ収集の難しさのため、各インスタンスの個々のアウトプットは監視できませんが、実際のアプリケーションでは、複数のインスタンスにまたがってまとめられたアウトプットを観測できます。このような集約データに対する回帰モデルの学習におけるラベリングコストを低減するために,ラベリング対象のセットを順次選択し,ラベル付きセットを少なくして予測性能を向上させるアクティブラーニング手法を提案する。提案手法では,モデルパラメータの不確かさの低減を,集計出力を観測することで定量化する相互情報を用いる。ガウス過程やニューラルネットワークを含む入力をモデル化するためのベイズ線形基底関数を用いることで、相互情報をクローズドな形式で効率的に計算することができる。種々のデータセットを用いた実験により,提案手法は既存の手法よりもラベル付き集合が少なく,予測性能が向上することを示した。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
MIBoost: A Gradient Boosting Algorithm for Variable Selection After Multiple Imputation [0.0]
実際には、分析は欠落データによって複雑になることが多い。提案するMIBoostは,命令付きデータセット間で均一な可変選択機構を持つ新しいアルゴリズムである。
論文参考訳（メタデータ） (2025-07-29T13:42:38Z)
Generalization is not a universal guarantee: Estimating similarity to training data with an ensemble out-of-distribution metric [0.09363323206192666]
機械学習モデルの新しいデータへの一般化の失敗は、AIシステムの信頼性を制限する中核的な問題である。本稿では、一般化可能性推定(SAGE)のための教師付きオートエンコーダを構築することにより、データの類似性を評価するための標準化されたアプローチを提案する。モデル自体のトレーニングやテストデータセットのデータに適用しても,SAGEスコアのフィルタリング後にアウト・オブ・ボックスモデルの性能が向上することを示す。
論文参考訳（メタデータ） (2025-02-22T19:21:50Z)
Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文参考訳（メタデータ） (2024-06-25T16:52:37Z)
Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文参考訳（メタデータ） (2023-10-10T10:48:52Z)
Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文参考訳（メタデータ） (2023-09-29T15:50:14Z)
Optimal Sample Selection Through Uncertainty Estimation and Its Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文参考訳（メタデータ） (2023-09-05T14:06:33Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文参考訳（メタデータ） (2022-10-05T09:17:27Z)
Partial sequence labeling with structured Gaussian Processes [8.239028141030621]
部分列ラベリングのための構造付きガウス過程を提案する。予測の不確実性を符号化し、モデル選択やハイパーパラメータ学習に余分な労力を要しない。いくつかのシーケンスラベリングタスクで評価を行い,実験結果から提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-09-20T00:56:49Z)
Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文参考訳（メタデータ） (2022-08-28T13:13:17Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文参考訳（メタデータ） (2022-02-08T19:18:49Z)
Mixing Deep Learning and Multiple Criteria Optimization: An Application to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。 MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文参考訳（メタデータ） (2021-12-02T16:00:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。