論文の概要: LUCoS: Latent Unsupervised Context Selection for Tabular Foundation Models
- arxiv url: http://arxiv.org/abs/2605.27254v1
- Date: Tue, 26 May 2026 16:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.414961
- Title: LUCoS: Latent Unsupervised Context Selection for Tabular Foundation Models
- Title(参考訳): LUCoS: 語彙基礎モデルの教師なし文脈選択
- Authors: Oroel Ipas, Guillermo Gomez-Trenado, Rocío Romero-Zaliz, Isaac Triguero,
- Abstract要約: LUCoSは、教師なし事前フィルタネットワーク(PFN)からの埋め込みによって誘導される潜時幾何学に置き換える。
LUCoSは6つの低ラベル予算のデータセットで第1位であり、結論はメトリクスとデータセットレベルのチェックで安定している。
- 参考スコア(独自算出の注目度): 1.1922891806996732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting which instances to label is a key challenge in low-label tabular learning. For recent Tabular Foundation Models such as TabPFN, context selection directly determines predictive performance. Supervised oracle experiments show that carefully chosen labeled context sets can strongly outperform random selection under the same labeling budget. However, the cold-start setting, where instances must be selected before any labels are available, has received little attention in the TFM literature. This problem is fundamentally geometric. In vision and language, foundation models induce embedding spaces where simple geometric selection methods are effective. In contrast, tabular instance selection has so far been performed predominantly in the original tabular space, which lacks a natural metric; heterogeneous types, mixed scales, and nonlinear interactions make raw-space distances unreliable for context construction, and original-space selection falls below random on the majority of datasets as the budget grows. We propose LUCoS (Latent Unsupervised Context Selection), which replaces raw-feature geometry with the latent geometry induced by embeddings from an unsupervised Prior-Fitted Network (PFN) and selects representative medoids as context. Evaluated on 67 OpenML-CC18 datasets across six low-label budgets, LUCoS ranks first under mean AUC, ACC, and F1, with conclusions stable across metrics and dataset-level robustness checks. A gain decomposition reveals a simple mechanism: at the smallest budgets, the main benefit comes from enforcing coverage; as the budget increases, the decisive factor becomes the representation space in which coverage is measured. LUCoS mitigates failures of original feature space selection, showing that reliable unsupervised context selection depends less on selector sophistication than on defining representativeness in a meaningful representation geometry.
- Abstract(参考訳): ラベル付けするインスタンスを選択することは、低ラベルの表型学習において重要な課題である。
TabPFNのような最近のタブラル基礎モデルでは、コンテキスト選択が直接予測性能を決定する。
教師付きオラクル実験は、慎重に選択されたラベル付きコンテキストセットが、同じラベル付け予算の下でランダム選択を強く上回ることを示す。
しかしながら、任意のラベルが利用可能になる前にインスタンスを選択しなければならないコールドスタート設定は、FM文献にはほとんど注目されていない。
この問題は基本的に幾何学的である。
視覚と言語において、基礎モデルは単純な幾何学的選択法が有効である埋め込み空間を誘導する。
それとは対照的に、表のインスタンス選択はもともとの表の空間で主に行われており、これは自然な計量が欠如しており、不均一なタイプ、混合スケール、非線形相互作用は、コンテキスト構築に信頼できない原空間距離を与え、予算が増加するにつれて、原空間の選択はデータセットの大多数にランダム以下になる。
そこで我々はLUCoS(Latent Unsupervised Context Selection)を提案する。このLUCoS(Latent Unsupervised Context Selection)は、非教師なしプレファレントネットワーク(PFN)からの埋め込みによって誘導される潜時幾何学を代替し、コンテキストとして代表的メドイドを選択する。
6つの低ラベル予算にわたる67のOpenML-CC18データセットに基づいて評価され、LUCoSは平均的なAUC、ACC、F1の下にランクされ、結論はメトリクスとデータセットレベルの堅牢性チェックで安定している。
利得分解は単純なメカニズムを明らかにする:最小限の予算では、主な利益はカバレッジを強制することであり、予算が増加するにつれて決定的要因はカバレッジを測定する表現空間となる。
LUCoSは、元の特徴空間選択の失敗を緩和し、信頼できる教師なし文脈選択が意味のある表現幾何学における代表性の定義よりもセレクタの高度化に依存しないことを示す。
関連論文リスト
- SEED: Targeted Data Selection by Weighted Independent Set [76.68391670109433]
我々はSEEDと呼ばれる堅牢でスケーラブルなデータ選択パイプラインを開発した。
SEEDは、命令チューニング、視覚的命令チューニング、セマンティックセグメンテーションにおける最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-15T07:26:54Z) - Budget-Aware Routing for Long Clinical Text [8.474809035213118]
大きな言語モデルの大きな課題は、クエリ毎のトークンコストとデプロイメント全体のコストです。
文書単位のサブセットが厳格なトークン予算の下で選択される、予算付きコンテキスト選択について検討する。
関連性,カバレッジ,多様性のバランスをとるモノトンサブモジュラー目的のtextbfRCD を提案する。
論文 参考訳(メタデータ) (2026-05-01T01:34:53Z) - UCS: Estimating Unseen Coverage for Improved In-Context Learning [24.34094317236037]
Unseen Coverage Selection (UKS) はトレーニングなしのサブセットレベルのカバレッジであり、優れたデモセットは、現在選択されているサブセットによって明らかにされていない潜在クラスタにモデルを公開すべきである、という原則によって以前に動機付けられていた。
UCSはこのアイデアを、モデルに一貫性のある埋め込みから離散潜在クラスタを誘導し、その経験周波数スペクトルからSmoothed Good-contexting estimatorを通して、候補サブセット内の未発見クラスタ数を推定することによって運用する。
Frontier Large Language Models による複数の意図分類と推論ベンチマークの実験により、UCS による強いベースラインの強化により、ICL の精度は最大で 2-6% 向上することが示された。
論文 参考訳(メタデータ) (2026-04-13T20:00:41Z) - A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't) [14.070675074621043]
インストラクションの微調整では、ターゲットタスクから小さなクエリセットを使用して、大きな候補プールから命令トレーニングデータのサブセットを選択する。
関心が高まりつつも、対象とする命令の選択に関する文献は断片化され、不透明なままである。
本研究では,データ表現と選択アルゴリズムという2つの中核成分を分離し,体系的に分析することで,この景観に明瞭さをもたらすことを目的とする。
論文 参考訳(メタデータ) (2026-02-16T12:33:05Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Diverse Subset Selection via Norm-Based Sampling and Orthogonality [31.558151874765667]
大きな注釈付きデータセットはディープニューラルネットワークの成功には不可欠だが、医療画像のような領域ではラベル付けデータは非常に高価である。
この研究はサブセット選択の問題に取り組み、アノテーションのために大きなラベル付けされていないプールから最も情報に富んだ例の小さなセットを選択する。
論文 参考訳(メタデータ) (2024-06-03T08:12:32Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。