Fugu-MT 論文翻訳(概要): Fitting Multiple Machine Learning Models with Performance Based Clustering

論文の概要: Fitting Multiple Machine Learning Models with Performance Based Clustering

arxiv url: http://arxiv.org/abs/2411.06572v2
Date: Thu, 30 Jan 2025 06:31:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 16:35:21.109369
Title: Fitting Multiple Machine Learning Models with Performance Based Clustering
Title（参考訳）: パフォーマンスに基づくクラスタリングによる複数機械学習モデルの適合
Authors: Mehmet Efe Lorasdagi, Ahmet Berker Koc, Ali Taha Koc, Suleyman Serdar Kozat,
Abstract要約: 従来の機械学習のアプローチは、データが単一の生成メカニズムから来ると仮定している。本稿では,特徴値と対象値の関係に応じてデータをグループ化することで,この仮定を解消するクラスタリングフレームワークを提案する。フレームワークをストリーミングデータを持つアプリケーションに拡張し、モデルのアンサンブルを使用して結果を生成する。
参考スコア（独自算出の注目度）: 8.763425474439552
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Traditional machine learning approaches assume that data comes from a single generating mechanism, which may not hold for most real life data. In these cases, the single mechanism assumption can result in suboptimal performance. We introduce a clustering framework that eliminates this assumption by grouping the data according to the relations between the features and the target values and we obtain multiple separate models to learn different parts of the data. We further extend our framework to applications having streaming data where we produce outcomes using an ensemble of models. For this, the ensemble weights are updated based on the incoming data batches. We demonstrate the performance of our approach over the widely-studied real life datasets, showing significant improvements over the traditional single-model approaches.
Abstract（参考訳）: 従来の機械学習のアプローチは、データが単一の生成メカニズムから来ると仮定している。このような場合、単一のメカニズムの仮定は、最適以下の性能をもたらす可能性がある。特徴と対象値の関係に応じてデータをグループ化することで、この仮定を解消するクラスタリングフレームワークを導入し、データの異なる部分を学習するための複数の別々のモデルを得る。我々はさらに、フレームワークをストリーミングデータを持つアプリケーションに拡張し、モデルのアンサンブルを使用して結果を生成する。このため、受信したデータバッチに基づいてアンサンブル重みが更新される。我々は、広く研究されている実生活データセットに対するアプローチの性能を実証し、従来の単一モデルアプローチよりも大幅に改善したことを示す。

関連論文リスト

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-01-10T04:35:46Z)
Active partitioning: inverting the paradigm of active learning [0.0]
本稿では,新しい汎用分割アルゴリズムを提案する。複数のモデルがデータセットの予測を反復的に送信する。データポイント毎の最良の予測は、そのデータポイント上でのトレーニングで報われる。
論文参考訳（メタデータ） (2024-11-27T11:47:07Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文参考訳（メタデータ） (2024-01-02T17:08:26Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Striving for data-model efficiency: Identifying data externalities on group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文参考訳（メタデータ） (2022-11-11T16:48:27Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
A Topological-Framework to Improve Analysis of Machine Learning Model Performance [5.3893373617126565]
本稿では、データセットをモデルが動作する「空間」として扱う機械学習モデルを評価するためのフレームワークを提案する。本稿では,各サブポピュレーション間でのモデル性能の保存と解析に有用なトポロジカルデータ構造であるプレシーブについて述べる。
論文参考訳（メタデータ） (2021-07-09T23:11:13Z)
Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning [36.047444794544425]
一度に1つのデータポイントを処理するのではなく、データセット全体を入力として扱う汎用ディープラーニングアーキテクチャを導入します。このアプローチでは、データポイント間の関係を明示的に推論するために、自己注意を使用します。従来の非パラメトリックモデルとは異なり、予測に他のデータポイントを使う方法をデータからエンド・ツー・エンドに学習させる。
論文参考訳（メタデータ） (2021-06-04T16:30:49Z)
StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。 StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文参考訳（メタデータ） (2020-05-04T15:43:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。