論文の概要: Calibrated Seq2seq Models for Efficient and Generalizable Ultra-fine
Entity Typing
- arxiv url: http://arxiv.org/abs/2311.00835v1
- Date: Wed, 1 Nov 2023 20:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:41:24.490910
- Title: Calibrated Seq2seq Models for Efficient and Generalizable Ultra-fine
Entity Typing
- Title(参考訳): 効率的かつ一般化可能な超微細エンティティタイピングのための校正Seq2seqモデル
- Authors: Yanlin Feng, Adithya Pratapa, David R Mortensen
- Abstract要約: 超微細エンティティタイピング用に設計されたseq2seqモデルであるCASENTを提案する。
我々のモデルは、エンティティを入力として参照し、制約されたビームサーチを用いて複数のタイプを自動回帰的に生成する。
提案手法は,F1スコアとキャリブレーション誤差の点から,50倍以上の推算速度を達成しながら,従来の最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 10.08153231108538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-fine entity typing plays a crucial role in information extraction by
predicting fine-grained semantic types for entity mentions in text. However,
this task poses significant challenges due to the massive number of entity
types in the output space. The current state-of-the-art approaches, based on
standard multi-label classifiers or cross-encoder models, suffer from poor
generalization performance or inefficient inference. In this paper, we present
CASENT, a seq2seq model designed for ultra-fine entity typing that predicts
ultra-fine types with calibrated confidence scores. Our model takes an entity
mention as input and employs constrained beam search to generate multiple types
autoregressively. The raw sequence probabilities associated with the predicted
types are then transformed into confidence scores using a novel calibration
method. We conduct extensive experiments on the UFET dataset which contains
over 10k types. Our method outperforms the previous state-of-the-art in terms
of F1 score and calibration error, while achieving an inference speedup of over
50 times. Additionally, we demonstrate the generalization capabilities of our
model by evaluating it in zero-shot and few-shot settings on five specialized
domain entity typing datasets that are unseen during training. Remarkably, our
model outperforms large language models with 10 times more parameters in the
zero-shot setting, and when fine-tuned on 50 examples, it significantly
outperforms ChatGPT on all datasets. Our code, models and demo are available at
https://github.com/yanlinf/CASENT.
- Abstract(参考訳): 超微細なエンティティ型付けは、テキスト中のエンティティ参照の詳細なセマンティクスタイプを予測することによって、情報抽出において重要な役割を果たす。
しかし、このタスクは、出力空間に多数のエンティティタイプが存在するため、重大な問題を引き起こす。
現在の最先端のアプローチは、標準的なマルチラベル分類器やクロスエンコーダモデルに基づいており、一般化性能や非効率な推論に苦しめられている。
本稿では,信頼度を校正した超細部タイプを予測するために設計されたseq2seqモデルであるcasentを提案する。
我々のモデルはエンティティ参照を入力として、制約付きビーム検索を用いて複数のタイプを自己回帰的に生成する。
そして、予測型に関連する生のシーケンス確率を、新しいキャリブレーション法を用いて信頼スコアに変換する。
10k以上のデータを含むUFETデータセットについて広範な実験を行った。
提案手法は,従来のf1スコアとキャリブレーション誤差を上回り,50倍以上の高速化を達成している。
さらに、トレーニング中に見つからない5つの専門ドメインエンティティ型付けデータセットに対して、ゼロショットおよび少数ショット設定で評価することで、モデルの一般化能力を実証する。
驚くべきことに、私たちのモデルはゼロショット設定で10倍のパラメータを持つ大きな言語モデルよりも優れており、50の例で微調整すると、すべてのデータセットでchatgptを大幅に上回っています。
私たちのコード、モデル、デモはhttps://github.com/yanlinf/casent.com/で閲覧できます。
関連論文リスト
- Self-calibration for Language Model Quantization and Pruning [38.00221764773372]
量子化とプルーニングはモデル圧縮の基本的なアプローチである。
トレーニング後の環境では、最先端の量子化とプルーニングの方法はキャリブレーションデータを必要とする。
自己校正を解決策として提案する。
論文 参考訳(メタデータ) (2024-10-22T16:50:00Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - From Ultra-Fine to Fine: Fine-tuning Ultra-Fine Entity Typing Models to
Fine-grained [12.948753628039093]
この問題に対処する一般的な方法は、間違ったラベルを含む遠方の注釈付きトレーニングデータを使用することである。
我々は,新しい型スキーマが存在する場合,遠隔ラベル付きデータを作成する必要がなくなるような新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:12:01Z) - TypeT5: Seq2seq Type Inference using Static Analysis [51.153089609654174]
本稿では,型予測をコード入力タスクとして扱う新しい型推論手法を提案する。
本手法では静的解析を用いて,型シグネチャがモデルによって予測されるコード要素毎に動的コンテキストを構築する。
また,モデルの入力コンテキストに事前の型予測を組み込んだ反復復号方式を提案する。
論文 参考訳(メタデータ) (2023-03-16T23:48:00Z) - The Effectiveness of Discretization in Forecasting: An Empirical Study
on Neural Time Series Models [15.281725756608981]
ニューラル予測アーキテクチャの予測性能に及ぼすデータ入力および出力変換の影響について検討する。
バイナリ化は実値入力の正規化に比べてほぼ常に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-05-20T15:09:28Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。