論文の概要: ArcheType: A Novel Framework for Open-Source Column Type Annotation
using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18208v2
- Date: Mon, 6 Nov 2023 13:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:46:23.744997
- Title: ArcheType: A Novel Framework for Open-Source Column Type Annotation
using Large Language Models
- Title(参考訳): ArcheType: 大規模言語モデルを用いたオープンソースのカラム型アノテーションフレームワーク
- Authors: Benjamin Feuer, Yurong Liu, Chinmay Hegde, Juliana Freire
- Abstract要約: ArcheTypeは、コンテキストサンプリング、即時シリアライゼーション、モデルクエリ、ラベルリマッピングのための、シンプルで実用的な方法である。
ゼロショットCTAベンチマークに最先端の性能を新たに確立する。
- 参考スコア(独自算出の注目度): 27.16599463833913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep-learning approaches to semantic column type annotation (CTA)
have important shortcomings: they rely on semantic types which are fixed at
training time; require a large number of training samples per type and incur
large run-time inference costs; and their performance can degrade when
evaluated on novel datasets, even when types remain constant. Large language
models have exhibited strong zero-shot classification performance on a wide
range of tasks and in this paper we explore their use for CTA. We introduce
ArcheType, a simple, practical method for context sampling, prompt
serialization, model querying, and label remapping, which enables large
language models to solve CTA problems in a fully zero-shot manner. We ablate
each component of our method separately, and establish that improvements to
context sampling and label remapping provide the most consistent gains.
ArcheType establishes a new state-of-the-art performance on zero-shot CTA
benchmarks (including three new domain-specific benchmarks which we release
along with this paper), and when used in conjunction with classical CTA
techniques, it outperforms a SOTA DoDuo model on the fine-tuned SOTAB
benchmark. Our code is available at https://github.com/penfever/ArcheType.
- Abstract(参考訳): 既存のセマンティックカラム型アノテーション(CTA)に対するディープラーニングアプローチには、トレーニング時に固定されたセマンティックタイプに依存すること、型毎のトレーニングサンプルを大量に必要とし、大量のランタイム推論コストを発生させること、新しいデータセットで型が一定である場合でもパフォーマンスが低下する、という重大な欠点がある。
大規模言語モデルは幅広いタスクにおいて強いゼロショット分類性能を示しており,本論文ではctaへの応用について検討する。
本稿では,コンテキストサンプリング,プロンプトシリアライズ,モデルクエリ,ラベルリマッピングのための簡易かつ実用的な手法であるarchetypeを紹介し,大規模言語モデルによるcta問題の完全ゼロショット解法を提案する。
提案手法の各コンポーネントを個別にアブレーションし、コンテキストサンプリングとラベルリマッピングの改善により、最も一貫した利得が得られることを示す。
ArcheTypeは、ゼロショットCTAベンチマーク(この記事とともにリリースした3つの新しいドメイン特化ベンチマークを含む)で新しい最先端性能を確立し、古典的なCTAテクニックと併用すると、細調整されたSOTABベンチマークでSOTA DoDuoモデルより優れている。
私たちのコードはhttps://github.com/penfever/ArcheTypeで利用可能です。
関連論文リスト
- Calibrated Seq2seq Models for Efficient and Generalizable Ultra-fine
Entity Typing [10.08153231108538]
超微細エンティティタイピング用に設計されたseq2seqモデルであるCASENTを提案する。
我々のモデルは、エンティティを入力として参照し、制約されたビームサーチを用いて複数のタイプを自動回帰的に生成する。
提案手法は,F1スコアとキャリブレーション誤差の点から,50倍以上の推算速度を達成しながら,従来の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2023-11-01T20:39:12Z) - In-Context Learning for Text Classification with Many Labels [34.87532045406169]
多くのラベルを持つタスクに対して大きな言語モデルを用いたインコンテキスト学習(ICL)は、コンテキストウィンドウが限られているため困難である。
我々は、この制限を回避するために、事前訓練された高密度検索モデルを使用する。
我々は、コンテキスト内サンプルの数と異なるモデルスケールのパフォーマンスを分析します。
論文 参考訳(メタデータ) (2023-09-19T22:41:44Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Few-Shot Fine-Grained Entity Typing with Automatic Label Interpretation
and Instance Generation [36.541309948222306]
各エンティティタイプに対して,アノテーション付きエンティティ参照が付与される場合,FET(Fall-shot Fine-fine Entity Typing)の問題について検討する。
そこで本稿では,(1) エンティティ型ラベル解釈モジュールが,少数ショットインスタンスとラベル階層を併用することで,タイプラベルと語彙の関連付けを自動的に学習し,(2) 型ベースのコンテキスト化インスタンス生成器は,与えられたインスタンスに基づいて新しいインスタンスを生成して,より一般化のためにトレーニングセットを拡大する,という,2つのモジュールからなる新しいFETフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-28T04:05:40Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。