論文の概要: Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2502.03147v1
- Date: Wed, 05 Feb 2025 13:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 16:28:51.094393
- Title: Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models
- Title(参考訳): 検索型大規模言語モデルによる語彙データのスケーラブルなインコンテキスト学習
- Authors: Xumeng Wen, Shun Zheng, Zhen Xu, Yiming Sun, Jiang Bian,
- Abstract要約: 拡張性のあるTabICLのための検索拡張言語モデルを提案する。
提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。
これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 15.603556124006479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that large language models (LLMs), when customized with post-training on tabular data, can acquire general tabular in-context learning (TabICL) capabilities. These models are able to transfer effectively across diverse data schemas and different task domains. However, existing LLM-based TabICL approaches are constrained to few-shot scenarios due to the sequence length limitations of LLMs, as tabular instances represented in plain text consume substantial tokens. To address this limitation and enable scalable TabICL for any data size, we propose retrieval-augmented LLMs tailored to tabular data. Our approach incorporates a customized retrieval module, combined with retrieval-guided instruction-tuning for LLMs. This enables LLMs to effectively leverage larger datasets, achieving significantly improved performance across 69 widely recognized datasets and demonstrating promising scaling behavior. Extensive comparisons with state-of-the-art tabular models reveal that, while LLM-based TabICL still lags behind well-tuned numeric models in overall performance, it uncovers powerful algorithms under limited contexts, enhances ensemble diversity, and excels on specific datasets. These unique properties underscore the potential of language as a universal and accessible interface for scalable tabular data learning.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)が、表型データによるポストトレーニングでカスタマイズされると、一般的な表型インコンテキスト学習(TabICL)能力が得られることが示されている。
これらのモデルは、多様なデータスキーマと異なるタスクドメイン間で効果的に転送できる。
しかし、従来のLLMベースのTabICLアプローチは、平文で表される表のインスタンスが相当量のトークンを消費するため、LLMのシーケンス長制限のため、少数ショットのシナリオに制約される。
この制限に対処し、任意のデータサイズに対してスケーラブルなTabICLを実現するために、表データに適した検索拡張LLMを提案する。
提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。
これにより、LLMはより大きなデータセットを効果的に活用でき、69の広く認識されているデータセット間でパフォーマンスが大幅に向上し、有望なスケーリング動作を示すことができる。
最先端の表形式モデルと比較して、LLMベースのTabICLは、全体的なパフォーマンスにおいて、十分に調整された数値モデルに遅れを取っているものの、限られたコンテキスト下で強力なアルゴリズムを発見し、アンサンブルの多様性を高め、特定のデータセットに最適化されていることが分かる。
これらのユニークな性質は、スケーラブルな表型データ学習のための普遍的でアクセスしやすいインターフェースとして、言語の可能性を強調している。
関連論文リスト
- TableLoRA: Low-rank Adaptation on Table Structure Understanding for Large Language Models [57.005158277893194]
TableLoRA は、PEFT における LLM のテーブル構造理解を改善するために設計されたモジュールである。
テーブルを特別なトークンエンコーダでシリアライズするための特別なトークンを組み込み、2D LoRAを使ってセル位置の低ランク情報をエンコードする。
論文 参考訳(メタデータ) (2025-03-06T12:50:14Z) - Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。
融合法を LLM-Boost と PFN-Boost と命名した。
多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2025-02-04T19:30:41Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Transfer Learning of Tabular Data by Finetuning Large Language Models [0.0]
本稿では,アプリケーションプログラミングインタフェース(API)の有効性と大規模言語モデル(LLM)の伝達学習について検討する。
LLM APIは、トークン化されたデータと命令で入力テキストプロンプトに応答するが、転送学習は、目標の分類タスクのためにLLMを微調整する。
本稿では,10個のベンチマークデータセット上でのクロスデータ転送学習を実証するために,LLMのエンドツーエンドの微調整を提案する。
論文 参考訳(メタデータ) (2025-01-12T16:23:18Z) - TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - AnnotatedTables: A Large Tabular Dataset with Language Model Annotations [8.602181445598776]
本稿では,多種多様な表データのアノテーションを機械学習で自動生成する方法を示す。
LLM生成アノテーションを備えた32,119のデータベースのコレクションであるAnnotatedTablesをリリースしました。
LLMによって同定された入力ターゲット列を持つ2,720のテーブル上で,ベイジアン事前訓練を行った最近のニューラルネットワーク分類器であるTabPFNの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-24T06:44:14Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models [21.10890310571397]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
この研究は、トレーニング中に言語モデルがデータセットを見たかどうかを評価するためのさまざまなテクニックを導入している。
次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-04-09T10:58:21Z) - Small Models are LLM Knowledge Triggers on Medical Tabular Prediction [39.78560996984352]
小モデルを用いたシナジー学習による汎用的な自己プロンプト手法SERSALを提案する。
本研究は,SERSALが言語的プロンプト法に比べて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T17:35:52Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。