Fugu-MT 論文翻訳(概要): Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian

論文の概要: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian

arxiv url: http://arxiv.org/abs/2407.20654v1
Date: Tue, 30 Jul 2024 08:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 17:49:53.100924
Title: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian
Title（参考訳）: ゼロショット分類のためのプロンプトエンコーダモデル:イタリアにおけるクロスドメイン研究
Authors: Serena Auriemma, Martina Miliani, Mauro Madeddu, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci,
Abstract要約: 本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
参考スコア（独自算出の注目度）: 75.94354349994576
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Addressing the challenge of limited annotated data in specialized fields and low-resource languages is crucial for the effective use of Language Models (LMs). While most Large Language Models (LLMs) are trained on general-purpose English corpora, there is a notable gap in models specifically tailored for Italian, particularly for technical and bureaucratic jargon. This paper explores the feasibility of employing smaller, domain-specific encoder LMs alongside prompting techniques to enhance performance in these specialized contexts. Our study concentrates on the Italian bureaucratic and legal language, experimenting with both general-purpose and further pre-trained encoder-only models. We evaluated the models on downstream tasks such as document classification and entity typing and conducted intrinsic evaluations using Pseudo-Log-Likelihood. The results indicate that while further pre-trained models may show diminished robustness in general knowledge, they exhibit superior adaptability for domain-specific tasks, even in a zero-shot setting. Furthermore, the application of calibration techniques and in-domain verbalizers significantly enhances the efficacy of encoder models. These domain-specialized models prove to be particularly advantageous in scenarios where in-domain resources or expertise are scarce. In conclusion, our findings offer new insights into the use of Italian models in specialized contexts, which may have a significant impact on both research and industrial applications in the digital transformation era.
Abstract（参考訳）: 言語モデル(LM)を効果的に活用するためには,特定分野や低リソース言語における限られたアノテートデータの課題に対処することが不可欠である。ほとんどのLarge Language Models (LLMs) は汎用英語コーパスで訓練されているが、特に技術的および官僚的ジャーゴンのために、特にイタリアに特化されたモデルには顕著なギャップがある。本稿では,より小型のドメイン固有エンコーダ LM の実現可能性と,これらの特殊なコンテキストにおける性能向上技術について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。 Pseudo-Log-Likelihoodを用いて,文書分類やエンティティタイピングなどの下流タスクにおけるモデルの評価を行い,本質的な評価を行った。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。さらに,キャリブレーション手法とドメイン内言語器の適用により,エンコーダモデルの有効性が著しく向上する。これらのドメイン特化モデルは、ドメイン内のリソースや専門知識が不足しているシナリオで特に有利であることが証明されている。結論として,本研究は,デジタルトランスフォーメーション時代の研究と産業への応用に大きな影響を与える可能性のある,専門的な文脈におけるイタリアモデルの利用に関する新たな知見を提供する。

関連論文リスト

The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing [2.7471068141502]
我々は,アルファベットなどの新しいデータ分布に一般化可能なモデルの構築を,集中的な微調整戦略よりも高速に行うことを目的としている。最先端のメタラーニングとは対照的に、データのスパース分布におけるドメインマージの有効性を示す。この研究は、表現不足のアルファベットを簡単に適用できるモデルを構築するための新しいアプローチに寄与する。
論文参考訳（メタデータ） (2025-06-07T11:05:33Z)
Small Language Models in the Real World: Insights from Industrial Text Classification [9.70280446429164]
ChatGPTは、テキスト分類と関連するタスクが大幅に進歩している。より小さな言語モデルがテキスト分類タスクを効果的に扱えるかどうかという問題は、重要な関心事として浮上する。本研究は,トランスフォーマーを用いたテキスト分類のための,プロンプトエンジニアリングと教師付き微調整手法の総合評価を行う。
論文参考訳（メタデータ） (2025-05-21T23:39:24Z)
Building Resource-Constrained Language Agents: A Korean Case Study on Chemical Toxicity Information [28.634126758365976]
本稿では,これらの制限下で考案された韓国の化学毒性情報エージェントであるTox-chatについて述べる。本稿では,階層的な部分探索によるトークン消費を低減する文脈効率アーキテクチャと,シナリオベースの対話生成手法を提案する。
論文参考訳（メタデータ） (2025-03-22T12:34:15Z)
LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-13T22:14:45Z)
Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文参考訳（メタデータ） (2024-11-09T11:37:18Z)
Exploring the Benefits of Domain-Pretraining of Generative Large Language Models for Chemistry [5.4665365335928024]
我々は、科学分野におけるオフ・ザ・シェルフとより標的となる基礎モデルを活用することのトレードオフについて検討する。本研究は, ある科学領域, 化学領域に対するドメイン内事前学習の利点を考察し, ゼロショットおよび少数ショットプロンプトを用いたオープンソースオフザシェルフモデルと比較する。その結果、ドメイン内ベースモデルではゼロショット設定でドメイン内タスクを合理的に実行することができるだけでなく、命令の微調整によるさらなる適応は、化学固有のタスクに顕著なパフォーマンスをもたらすことがわかった。
論文参考訳（メタデータ） (2024-11-05T22:45:10Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
DSG-KD: Knowledge Distillation from Domain-Specific to General Language Models [8.328673243329794]
本研究は,韓国の小児救急部門(PED)から得られた電子カルテ(EMR)データに基づく緊急時・緊急時・緊急時分類タスクについて検討した。既存のドメイン固有の事前学習言語モデルは、N言語自由テキストデータ特性を扱う場合の一般的な言語モデルと比較して性能が劣る。本稿では,知識蒸留を利用したドメイン知識伝達手法を提案する。
論文参考訳（メタデータ） (2024-09-23T10:59:02Z)
Neural Machine Translation Models Can Learn to be Few-shot Learners [2.2999148299770042]
In-context Learning (ICL) を実行するために、はるかに小さなモデルを訓練できることが示される。 ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。提案手法により、ドメインの混合による効率的なバッチ推論が可能となり、翻訳品質と即時適応率の両方において最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-09-15T17:44:21Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)
Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文参考訳（メタデータ） (2023-05-23T19:38:28Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。