Fugu-MT 論文翻訳(概要): Algebraic Machine Learning for Small-to-Medium Datasets Is Competitive against Strong Standard Baselines

論文の概要: Algebraic Machine Learning for Small-to-Medium Datasets Is Competitive against Strong Standard Baselines

arxiv url: http://arxiv.org/abs/2605.22155v1
Date: Thu, 21 May 2026 08:25:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.162951
Title: Algebraic Machine Learning for Small-to-Medium Datasets Is Competitive against Strong Standard Baselines
Title（参考訳）: 小・中小データセットのための代数的機械学習は、強い標準ベースラインと競合する
Authors: David Mendez, Fernando Martin-Maroto, Gonzalo G. de Polavieja,
Abstract要約: 代数機械学習(Algebraic Machine Learning, AML)は、数値最適化ではなく、代数構造を間接的に分解することで学習する。検証やクロスバリデーションを使わずにトレーニングデータのみをトレーニングしたAMLは、クロスバリデーションベースラインメソッドのファミリーよりも優れています。
参考スコア（独自算出の注目度）: 41.99844472131922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Symbolic methods are generally not considered competitive with strong modern learners on realistic supervised tasks. We evaluate Algebraic Machine Learning (AML), a framework that learns through subdirect decomposition of algebraic structure rather than numerical optimization, against standard baselines on image and tabular classification across varying training-set sizes. We find that AML trained only on training data without using validation or cross-validation outperforms a family of cross-validated baseline methods including CNNs on small to medium image datasets (50--2000 training examples). On tabular datasets in the same size range, XGBoost is overall the best performing method, but AML is nonetheless comparable to methods incorporating task-specific biases such as LightGBM and random forests. AML achieves this competitive performance across two very different types of datasets using a generic algebraic inductive bias, rather than the modality-specific biases built into standard baselines like CNNs for images or XGBoost for tabular data, and requires no cross validation because it has no task-dependent hyperparameters to tune.
Abstract（参考訳）: 記号的手法は一般に、現実的な教師付きタスクにおいて、強力な現代学習者と競合するとは考えられない。我々は,代数構造を数値最適化ではなく間接的に分解して学習するフレームワークである代数機械学習(Algebraic Machine Learning, AML)を,様々なトレーニングセットサイズにまたがる画像と表層分類の標準ベースラインに対して評価する。検証やクロスバリデーションを使わずにトレーニングデータのみをトレーニングしたAMLは、中小画像データセット上のCNNを含むクロスバリデーションベースラインメソッド群(50～2000年のトレーニング例)よりも優れていた。同じサイズ範囲の表形式のデータセットでは、XGBoostが全体として最高のパフォーマンスの方法であるが、しかしながら、AMLはLightGBMやランダムフォレストのようなタスク固有のバイアスを取り入れた手法に匹敵する。 AMLは、画像のCNNや表のデータのXGBoostのような標準ベースラインに組み込まれたモダリティ固有のバイアスではなく、汎用的な代数的帰納バイアスを使用して、2つの非常に異なるタイプのデータセットでこの競合性能を実現している。

関連論文リスト

Learning Multi-Indicator Weights for Data Selection: A Joint Task-Model Adaptation Framework with Efficient Proxies [50.39041754816285]
本稿では、下流タスクと特定のモデルの両方にデータ選択を併用する多変数重み学習フレームワークを提案する。提案手法は,GSM8Kのトレーニングサンプルの30%しか使用せず,フルデータセットチューニングに匹敵する性能を実現する。
論文参考訳（メタデータ） (2026-05-10T17:30:16Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文参考訳（メタデータ） (2024-12-20T02:21:36Z)
Distributionally robust self-supervised learning for tabular data [4.172010719137041]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文参考訳（メタデータ） (2024-10-11T04:23:56Z)
Multitask Learning Can Improve Worst-Group Outcomes [76.92646345152788]
マルチタスク学習(MTL)は、そのような広く使われている技法の一つである。我々は,共同マルチタスク表現空間を正規化することにより,標準MTLを変更することを提案する。正規化MTLアプローチは,平均群と最低群の両方でJTTを上回っていることがわかった。
論文参考訳（メタデータ） (2023-12-05T21:38:24Z)
Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。 101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。