論文の概要: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian
- arxiv url: http://arxiv.org/abs/2407.20654v1
- Date: Tue, 30 Jul 2024 08:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:49:53.100924
- Title: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian
- Title(参考訳): ゼロショット分類のためのプロンプトエンコーダモデル:イタリアにおけるクロスドメイン研究
- Authors: Serena Auriemma, Martina Miliani, Mauro Madeddu, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci,
- Abstract要約: 本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
- 参考スコア(独自算出の注目度): 75.94354349994576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Addressing the challenge of limited annotated data in specialized fields and low-resource languages is crucial for the effective use of Language Models (LMs). While most Large Language Models (LLMs) are trained on general-purpose English corpora, there is a notable gap in models specifically tailored for Italian, particularly for technical and bureaucratic jargon. This paper explores the feasibility of employing smaller, domain-specific encoder LMs alongside prompting techniques to enhance performance in these specialized contexts. Our study concentrates on the Italian bureaucratic and legal language, experimenting with both general-purpose and further pre-trained encoder-only models. We evaluated the models on downstream tasks such as document classification and entity typing and conducted intrinsic evaluations using Pseudo-Log-Likelihood. The results indicate that while further pre-trained models may show diminished robustness in general knowledge, they exhibit superior adaptability for domain-specific tasks, even in a zero-shot setting. Furthermore, the application of calibration techniques and in-domain verbalizers significantly enhances the efficacy of encoder models. These domain-specialized models prove to be particularly advantageous in scenarios where in-domain resources or expertise are scarce. In conclusion, our findings offer new insights into the use of Italian models in specialized contexts, which may have a significant impact on both research and industrial applications in the digital transformation era.
- Abstract(参考訳): 言語モデル(LM)を効果的に活用するためには,特定分野や低リソース言語における限られたアノテートデータの課題に対処することが不可欠である。
ほとんどのLarge Language Models (LLMs) は汎用英語コーパスで訓練されているが、特に技術的および官僚的ジャーゴンのために、特にイタリアに特化されたモデルには顕著なギャップがある。
本稿では,より小型のドメイン固有エンコーダ LM の実現可能性と,これらの特殊なコンテキストにおける性能向上技術について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
Pseudo-Log-Likelihoodを用いて,文書分類やエンティティタイピングなどの下流タスクにおけるモデルの評価を行い,本質的な評価を行った。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
さらに,キャリブレーション手法とドメイン内言語器の適用により,エンコーダモデルの有効性が著しく向上する。
これらのドメイン特化モデルは、ドメイン内のリソースや専門知識が不足しているシナリオで特に有利であることが証明されている。
結論として,本研究は,デジタルトランスフォーメーション時代の研究と産業への応用に大きな影響を与える可能性のある,専門的な文脈におけるイタリアモデルの利用に関する新たな知見を提供する。
関連論文リスト
- Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - Exploring the Benefits of Domain-Pretraining of Generative Large Language Models for Chemistry [5.4665365335928024]
我々は、科学分野におけるオフ・ザ・シェルフとより標的となる基礎モデルを活用することのトレードオフについて検討する。
本研究は, ある科学領域, 化学領域に対するドメイン内事前学習の利点を考察し, ゼロショットおよび少数ショットプロンプトを用いたオープンソースオフザシェルフモデルと比較する。
その結果、ドメイン内ベースモデルではゼロショット設定でドメイン内タスクを合理的に実行することができるだけでなく、命令の微調整によるさらなる適応は、化学固有のタスクに顕著なパフォーマンスをもたらすことがわかった。
論文 参考訳(メタデータ) (2024-11-05T22:45:10Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - DSG-KD: Knowledge Distillation from Domain-Specific to General Language Models [8.328673243329794]
本研究は,韓国の小児救急部門(PED)から得られた電子カルテ(EMR)データに基づく緊急時・緊急時・緊急時分類タスクについて検討した。
既存のドメイン固有の事前学習言語モデルは、N言語自由テキストデータ特性を扱う場合の一般的な言語モデルと比較して性能が劣る。
本稿では,知識蒸留を利用したドメイン知識伝達手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T10:59:02Z) - Neural Machine Translation Models Can Learn to be Few-shot Learners [2.2999148299770042]
In-context Learning (ICL) を実行するために、はるかに小さなモデルを訓練できることが示される。
ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。
提案手法により、ドメインの混合による効率的なバッチ推論が可能となり、翻訳品質と即時適応率の両方において最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-09-15T17:44:21Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。