論文の概要: Latte: Transfering LLMs` Latent-level Knowledge for Few-shot Tabular Learning
- arxiv url: http://arxiv.org/abs/2505.05237v1
- Date: Thu, 08 May 2025 13:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.900665
- Title: Latte: Transfering LLMs` Latent-level Knowledge for Few-shot Tabular Learning
- Title(参考訳): ラッテ:LLMをラテンレベルに移行したタブラリラーニング
- Authors: Ruxue Shi, Hengrui Gu, Hangting Ye, Yiwei Dai, Xu Shen, Xin Wang,
- Abstract要約: Latteはトレーニング時の知識抽出フレームワークで、より一般化された下流モデルの最適化のために、Large Language Models内で遅延した事前知識を転送する。
既存の教師なし事前トレーニングパラダイムと互換性があり、利用可能なラベル付きサンプルを効果的に利用して、非常に小さなラベル付きデータセットによって課されるパフォーマンス制限を克服する。
- 参考スコア(独自算出の注目度): 12.990380726761767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot tabular learning, in which machine learning models are trained with a limited amount of labeled data, provides a cost-effective approach to addressing real-world challenges. The advent of Large Language Models (LLMs) has sparked interest in leveraging their pre-trained knowledge for few-shot tabular learning. Despite promising results, existing approaches either rely on test-time knowledge extraction, which introduces undesirable latency, or text-level knowledge, which leads to unreliable feature engineering. To overcome these limitations, we propose Latte, a training-time knowledge extraction framework that transfers the latent prior knowledge within LLMs to optimize a more generalized downstream model. Latte enables general knowledge-guided downstream tabular learning, facilitating the weighted fusion of information across different feature values while reducing the risk of overfitting to limited labeled data. Furthermore, Latte is compatible with existing unsupervised pre-training paradigms and effectively utilizes available unlabeled samples to overcome the performance limitations imposed by an extremely small labeled dataset. Extensive experiments on various few-shot tabular learning benchmarks demonstrate the superior performance of Latte, establishing it as a state-of-the-art approach in this domain
- Abstract(参考訳): 限定されたラベル付きデータで機械学習モデルをトレーニングする、わずかなショットの表層学習は、現実の課題に対処するためのコスト効率のよいアプローチを提供する。
LLM(Large Language Models)の出現は、訓練済みの知識を数ショットの表形式学習に活用することへの関心を喚起した。
有望な結果にもかかわらず、既存のアプローチでは、望ましくないレイテンシを導入するテスト時の知識抽出や、信頼性の低い機能エンジニアリングにつながるテキストレベルの知識に頼っている。
これらの制約を克服するために、より一般化された下流モデルに最適化するために、LLM内で潜伏した事前知識を伝達する訓練時間知識抽出フレームワークであるLatteを提案する。
Latteは、一般的な知識誘導の下流表型学習を可能にし、異なる特徴値間で情報の重み付けをしやすくし、限られたラベル付きデータに過度に適合するリスクを低減する。
さらに、Latteは既存の教師なし事前トレーニングパラダイムと互換性があり、利用可能なラベルなしサンプルを効果的に利用して、非常に小さなラベル付きデータセットによって課されるパフォーマンス制限を克服する。
様々な数ショットの表型学習ベンチマークに関する大規模な実験は、ラッテの優れた性能を示し、この領域における最先端のアプローチとして確立した。
関連論文リスト
- PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning [27.16106173526184]
LMMのための現実的な未学習シナリオのためのPULSEプロトコルを提案する。
そして、これらの次元に沿って既存の未学習手法を評価する。
以上の結果から,いくつかの技術は微調整によって習得した知識を学べるが,事前学習中に学習した情報の除去に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-07-02T01:13:08Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Catastrophic Failure of LLM Unlearning via Quantization [36.524827594501495]
未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。
実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文 参考訳(メタデータ) (2024-10-21T19:28:37Z) - Small Models are LLM Knowledge Triggers on Medical Tabular Prediction [39.78560996984352]
小モデルを用いたシナジー学習による汎用的な自己プロンプト手法SERSALを提案する。
本研究は,SERSALが言語的プロンプト法に比べて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T17:35:52Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [69.50273822565363]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - On Measuring the Intrinsic Few-Shot Hardness of Datasets [49.37562545777455]
トレーニング済みのモデルに対して、データセットに固有の数ショットの硬さを示す。
そこで我々は,数発の学習が可能な直感をとらえる,シンプルで軽量な尺度"Spread"を提案する。
我々の測定基準は、既存の硬さの概念に比べて数発の硬さを考慮し、計算が8~100倍高速である。
論文 参考訳(メタデータ) (2022-11-16T18:53:52Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。