論文の概要: Algorithms for estimating linear function in data mining
- arxiv url: http://arxiv.org/abs/2506.12069v1
- Date: Wed, 04 Jun 2025 03:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.620152
- Title: Algorithms for estimating linear function in data mining
- Title(参考訳): データマイニングにおける線形関数推定アルゴリズム
- Authors: Thomas Hoang,
- Abstract要約: このトピックの主な目的は、ユーザ好みを予測するために線形ユーティリティ関数を推定するためのいくつかの研究アルゴリズムを紹介することである。
例えば、ユーザーが線形関数の速度、色、年齢などいくつかの属性を持つ車を購入しようとすると、本論文で紹介するアルゴリズムは、この線形関数を推定して小さなサブセットをフィルタリングするのに役立つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main goal of this topic is to showcase several studied algorithms for estimating the linear utility function to predict the users preferences. For example, if a user comes to buy a car that has several attributes including speed, color, age, etc in a linear function, the algorithms that we present in this paper help with estimating this linear function to filter out a small subset that would be of best interest to the user among a million tuples in a very large database. In addition, the estimating linear function could also be applicable in getting to know what the data can do or predicting the future based on the data that is used in data science, which is demonstrated by the GNN, PLOD algorithms. In the ever-evolving field of data science, deriving valuable insights from large datasets is critical for informed decision-making, particularly in predictive applications. Data analysts often identify high-quality datasets without missing values, duplicates, or inconsistencies before merging diverse attributes for analysis. Taking housing price prediction as a case study, various attributes must be considered, including location factors (proximity to urban centers, crime rates), property features (size, style, modernity), and regional policies (tax implications). Experts in the field typically rank these attributes to establish a predictive utility function, which machine learning models use to forecast outcomes like housing prices. Several data discovery algorithms, including those that address the challenges of predefined utility functions and human input for attribute ranking, which often result in a time-consuming iterative process, that the work of cannot overcome.
- Abstract(参考訳): このトピックの主な目的は、ユーザ好みを予測するために線形ユーティリティ関数を推定するためのいくつかの研究アルゴリズムを紹介することである。
例えば、ユーザーがリニア関数の速度、色、年齢などいくつかの属性を持つ車を購入しようとすると、このリニア関数を推定して、非常に大きなデータベースの100万タプルの中で、ユーザにとって最も関心のある小さなサブセットをフィルタするのに役立ちます。
さらに、推定線形関数は、GNN、PLODアルゴリズムによって実証されるデータサイエンスで使用されるデータに基づいて、データに何ができるかを把握したり、将来を予測するためにも適用することができる。
データサイエンスの進化を続ける分野では、大規模なデータセットから貴重な洞察を得ることは、情報的意思決定、特に予測的アプリケーションにおいて重要である。
データアナリストは、分析のためにさまざまな属性をマージする前に、欠落した値や重複、矛盾のない高品質なデータセットを識別することが多い。
住宅価格の予測をケーススタディとして考えると、立地要因(都市中心部への近さ、犯罪率)、財産特性(サイズ、スタイル、モダニティ)、地域政策(税制上の意味)など、様々な属性を考慮する必要がある。
この分野の専門家は通常これらの属性をランク付けして予測ユーティリティ機能を確立する。
事前定義されたユーティリティ関数の課題に対処するアルゴリズムや属性ランキングのためのヒューマンインプットなど、いくつかのデータ発見アルゴリズムは、しばしば時間を要する反復的なプロセスをもたらすため、その作業が克服できない。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Online Feature Selection for Efficient Learning in Networked Systems [3.13468877208035]
データ駆動エンジニアリングのための現在のAI/MLメソッドは、主にオフラインでトレーニングされたモデルを使用する。
多数の利用可能なデータソースから小さな特徴セットを選択するオンライン安定特徴セットアルゴリズム(OSFS)を提案する。
OSFSは、調査されたすべてのデータセットに対して、1~3桁の規模で設定された機能のサイズを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-15T16:31:59Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Differentially Private Simple Linear Regression [2.614403183902121]
差分プライバシーを満たす単純な線形回帰のアルゴリズムについて検討する。
小データセットに対する単純な線形回帰のための微分プライベートアルゴリズムの設計を考察する。
設定に適応するアルゴリズムのスペクトルの性能について検討する。
論文 参考訳(メタデータ) (2020-07-10T04:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。