論文の概要: Language Model Representations for Efficient Few-Shot Tabular Classification
- arxiv url: http://arxiv.org/abs/2602.15844v1
- Date: Wed, 21 Jan 2026 23:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.641379
- Title: Language Model Representations for Efficient Few-Shot Tabular Classification
- Title(参考訳): 効率的なFew-Shotタブラリ分類のための言語モデル表現
- Authors: Inwon Kang, Parikshit Ram, Yi Zhou, Horst Samulowitz, Oshani Seneviratne,
- Abstract要約: 大規模言語モデル(LLM)はセマンティック検索のようなタスクにおいて、Webインフラストラクチャのますます統合的なコンポーネントになりつつある。
本稿では、$textbfTa$ble $textbfR$epresentation with $textbfL$anguage Modelという軽量パラダイムを調査します。
提案手法は,低データ方式の最先端モデルに匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 17.63549220100997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Web is a rich source of structured data in the form of tables, from product catalogs and knowledge bases to scientific datasets. However, the heterogeneity of the structure and semantics of these tables makes it challenging to build a unified method that can effectively leverage the information they contain. Meanwhile, Large language models (LLMs) are becoming an increasingly integral component of web infrastructure for tasks like semantic search. This raises a crucial question: can we leverage these already-deployed LLMs to classify structured data in web-native tables (e.g., product catalogs, knowledge base exports, scientific data portals), avoiding the need for specialized models or extensive retraining? This work investigates a lightweight paradigm, $\textbf{Ta}$ble $\textbf{R}$epresentation with $\textbf{L}$anguage Model~($\textbf{TaRL}$), for few-shot tabular classification that directly utilizes semantic embeddings of individual table rows. We first show that naive application of these embeddings underperforms compared to specialized tabular models. We then demonstrate that their potentials can be unlocked with two key techniques: removing the common component from all embeddings and calibrating the softmax temperature. We show that a simple meta-learner, trained on handcrafted features, can learn to predict an appropriate temperature. This approach achieves performance comparable to state-of-the-art models in low-data regimes ($k \leq 32$) of semantically-rich tables. Our findings demonstrate the viability of reusing existing LLM infrastructure for efficient semantics-driven pathway to reuse existing LLM infrastructure for Web table understanding.
- Abstract(参考訳): Webは、製品カタログやナレッジベースから科学データセットに至るまで、テーブル形式で構造化されたデータのリッチなソースです。
しかし、これらの表の構造と意味の異質性は、それらが含む情報を効果的に活用できる統一的な方法を構築するのを困難にしている。
一方、Large Language Model(LLM)はセマンティック検索のようなタスクにおいて、Webインフラストラクチャのますます統合的なコンポーネントになりつつある。
既にデプロイ済みのLCMを使用して、構造化されたデータをWebネイティブなテーブル(製品カタログ、ナレッジベースエクスポート、科学データポータルなど)に分類し、特別なモデルや広範なリトレーニングを必要としないか?
この研究は、個々のテーブル行のセマンティック埋め込みを直接利用する数ショットの表層分類に対して、$\textbf{Ta}$ble $\textbf{R}$epresentation with $\textbf{L}$anguage Model~($\textbf{TaRL}$)という軽量なパラダイムを調査する。
まず、これらの埋め込みの単純適用は、特殊な表形式モデルに比べて性能が低いことを示す。
次に、それらのポテンシャルは、すべての埋め込みから共通成分を取り除き、ソフトマックス温度を校正する2つの重要な手法で解錠できることを実証する。
簡単なメタラーナーが手作りの特徴に基づいて訓練され、適切な温度を予測することができることを示す。
このアプローチは、セマンティックにリッチなテーブルの低データレジーム(k \leq 32$)における最先端モデルに匹敵するパフォーマンスを実現する。
本研究は,既存の LLM インフラを効率的に利用し,Web テーブル理解のために既存の LLM インフラを再利用する手法として,既存の LLM インフラを再利用する可能性を示す。
関連論文リスト
- Table as a Modality for Large Language Models [28.392792653645998]
提案したStructQAベンチマークで探索実験を行った。
本稿では,テーブルをテキストトークンと統合した独立したモダリティとして扱うためのイデオロギーを持つTAMOを提案する。
論文 参考訳(メタデータ) (2025-11-30T15:59:56Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Taxonomy Inference for Tabular Data Using Large Language Models [31.121233193993906]
本稿では,表に対する分類的推論法として, (i) EmTT, (ii) GeTT, (ii) GPT-4 のようなデコーダ・アローン LLM を用いてテーブルエンティティの型と階層を生成する。
論文 参考訳(メタデータ) (2025-03-25T16:26:05Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。