論文の概要: Automated Machine Learning for Unsupervised Tabular Tasks
- arxiv url: http://arxiv.org/abs/2510.07569v1
- Date: Wed, 08 Oct 2025 21:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.746435
- Title: Automated Machine Learning for Unsupervised Tabular Tasks
- Title(参考訳): 教師なしタブラルタスクのための自動機械学習
- Authors: Prabhant Singh, Pieter Gijsbers, Elif Ceren Gok Yildirim, Murat Onur Yildirim, Joaquin Vanschoren,
- Abstract要約: LOTUSは、複数の教師なし機械学習タスクに対してモデル選択を実行する方法である。
我々は、LOTUSが複数の教師なしMLタスクのモデル選択に向けた、非常に有望な第一歩であることを示す。
- 参考スコア(独自算出の注目度): 9.72409917431972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present LOTUS (Learning to Learn with Optimal Transport for Unsupervised Scenarios), a simple yet effective method to perform model selection for multiple unsupervised machine learning(ML) tasks such as outlier detection and clustering. Our intuition behind this work is that a machine learning pipeline will perform well in a new dataset if it previously worked well on datasets with a similar underlying data distribution. We use Optimal Transport distances to find this similarity between unlabeled tabular datasets and recommend machine learning pipelines with one unified single method on two downstream unsupervised tasks: outlier detection and clustering. We present the effectiveness of our approach with experiments against strong baselines and show that LOTUS is a very promising first step toward model selection for multiple unsupervised ML tasks.
- Abstract(参考訳): 本研究では,外乱検出やクラスタリングなど,複数の教師なし機械学習(ML)タスクに対して,モデル選択をシンプルかつ効果的に行うLOTUS(Learning to Learn with Optimal Transport for Unsupervised Scenarios)を提案する。
この作業の背景にある直感は、前もって同様の基盤となるデータ分布を持つデータセットでうまく機能していた場合、マシンラーニングパイプラインが新しいデータセットでうまく機能する、ということです。
我々は、ラベルなしのグラフデータセット間のこの類似性を見つけるために、最適なトランスポート距離を使用し、下流の2つの教師なしタスクに1つの統一された単一メソッドを持つ機械学習パイプラインを推奨します。
提案手法の有効性を,強いベースラインに対する実験により示すとともに,LOTUSが複数の教師なしMLタスクに対するモデル選択に向けた非常に有望な第一歩であることを示す。
関連論文リスト
- COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning [30.547410996111108]
数発の模倣学習において,COLLAGEはCOLLective Data AGgrEgationの手法である。
Collageは適応的なレイトフュージョン機構を使用して、複数のキューのタスク固有の組み合わせに基づいて、関連するデモの選択をガイドする。
コラージュは最先端の検索とマルチタスク学習の手法を10タスクで5.1%、現実世界では6タスクで16.6%上回っている。
論文 参考訳(メタデータ) (2025-08-02T01:23:09Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - Active Learning with Combinatorial Coverage [0.0]
アクティブな学習は、ラベル付けするデータを選択するプロセスを自動化する機械学習の実践的な分野である。
現在の手法はデータラベリングの負担を軽減するのに有効であるが、モデルに強く依存する。
これにより、サンプルデータの新しいモデルへの転送が不可能になり、サンプリングバイアスの問題も発生した。
本稿では,これらの課題を克服するために,カバレッジを活用した能動的学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:43:23Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Meta-Learning for Unsupervised Outlier Detection with Optimal Transport [4.035753155957698]
そこで本稿では,従来のデータセットからのメタラーニングに基づく異常検出の自動化手法を提案する。
特に最適なトランスポートを活用して、最も類似した分布を持つデータセットを見つけ、そのデータ分散に最も適することが証明された外れ値検出技術を適用します。
論文 参考訳(メタデータ) (2022-11-01T10:36:48Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。