論文の概要: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian
- arxiv url: http://arxiv.org/abs/2407.20654v1
- Date: Tue, 30 Jul 2024 08:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:49:53.100924
- Title: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian
- Title(参考訳): ゼロショット分類のためのプロンプトエンコーダモデル:イタリアにおけるクロスドメイン研究
- Authors: Serena Auriemma, Martina Miliani, Mauro Madeddu, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci,
- Abstract要約: 本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
- 参考スコア(独自算出の注目度): 75.94354349994576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Addressing the challenge of limited annotated data in specialized fields and low-resource languages is crucial for the effective use of Language Models (LMs). While most Large Language Models (LLMs) are trained on general-purpose English corpora, there is a notable gap in models specifically tailored for Italian, particularly for technical and bureaucratic jargon. This paper explores the feasibility of employing smaller, domain-specific encoder LMs alongside prompting techniques to enhance performance in these specialized contexts. Our study concentrates on the Italian bureaucratic and legal language, experimenting with both general-purpose and further pre-trained encoder-only models. We evaluated the models on downstream tasks such as document classification and entity typing and conducted intrinsic evaluations using Pseudo-Log-Likelihood. The results indicate that while further pre-trained models may show diminished robustness in general knowledge, they exhibit superior adaptability for domain-specific tasks, even in a zero-shot setting. Furthermore, the application of calibration techniques and in-domain verbalizers significantly enhances the efficacy of encoder models. These domain-specialized models prove to be particularly advantageous in scenarios where in-domain resources or expertise are scarce. In conclusion, our findings offer new insights into the use of Italian models in specialized contexts, which may have a significant impact on both research and industrial applications in the digital transformation era.
- Abstract(参考訳): 言語モデル(LM)を効果的に活用するためには,特定分野や低リソース言語における限られたアノテートデータの課題に対処することが不可欠である。
ほとんどのLarge Language Models (LLMs) は汎用英語コーパスで訓練されているが、特に技術的および官僚的ジャーゴンのために、特にイタリアに特化されたモデルには顕著なギャップがある。
本稿では,より小型のドメイン固有エンコーダ LM の実現可能性と,これらの特殊なコンテキストにおける性能向上技術について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
Pseudo-Log-Likelihoodを用いて,文書分類やエンティティタイピングなどの下流タスクにおけるモデルの評価を行い,本質的な評価を行った。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
さらに,キャリブレーション手法とドメイン内言語器の適用により,エンコーダモデルの有効性が著しく向上する。
これらのドメイン特化モデルは、ドメイン内のリソースや専門知識が不足しているシナリオで特に有利であることが証明されている。
結論として,本研究は,デジタルトランスフォーメーション時代の研究と産業への応用に大きな影響を与える可能性のある,専門的な文脈におけるイタリアモデルの利用に関する新たな知見を提供する。
関連論文リスト
- INDUS: Effective and Efficient Language Models for Scientific Applications [8.76933154920986]
言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
従来の研究では、ドメイン中心のコーパスを使用して訓練されたLLMが、特別なタスクでより良く機能することを示した。
我々は地球科学、生物学、物理学、生物物理学、惑星科学、天体物理学の分野に適した総合的なLLMスイートであるINDUSを開発した。
論文 参考訳(メタデータ) (2024-05-17T12:15:07Z) - Neural Machine Translation Models Can Learn to be Few-shot Learners [2.2999148299770042]
In-context Learning (ICL) を実行するために、はるかに小さなモデルを訓練できることが示される。
ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。
提案手法により、ドメインの混合による効率的なバッチ推論が可能となり、翻訳品質と即時適応率の両方において最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-09-15T17:44:21Z) - OCR Language Models with Custom Vocabularies [5.608846358903994]
本稿では,OCRシステムにおける汎用言語モデルに対して,実行時にドメイン固有の単語ベース言語モデルを効率的に生成し,アタッチするアルゴリズムを提案する。
また,CTCビームサーチデコーダを改良し,将来的な語彙の完成を前提として仮説を競合状態に保たせるようにした。
論文 参考訳(メタデータ) (2023-08-18T16:46:11Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。