論文の概要: Enhanced Urdu Intent Detection with Large Language Models and Prototype-Informed Predictive Pipelines
- arxiv url: http://arxiv.org/abs/2505.07857v1
- Date: Thu, 08 May 2025 08:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.228188
- Title: Enhanced Urdu Intent Detection with Large Language Models and Prototype-Informed Predictive Pipelines
- Title(参考訳): 大規模言語モデルとプロトタイプインフォームド予測パイプラインを用いたUrduインテント検出の高速化
- Authors: Faiza Hassan, Summra Saleem, Kashif Javed, Muhammad Nabeel Asim, Abdur Rehman, Andreas Dengel,
- Abstract要約: 本稿では,未ラベルのUrduデータを利用して事前学習した言語モデルを再学習する,ユニークなコントラスト学習手法を提案する。
事前訓練されたLLMとプロトタイプにインフォームドされたアテンション機構を組み合わせることで、エンドツーエンドのインテント検出パイプラインを生成する。
提案する予測パイプラインのパラダイムの下で、6つの異なる言語モデルと13の異なる類似性計算手法の可能性を探求する。
- 参考スコア(独自算出の注目度): 5.191443390565865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multifarious intent detection predictors are developed for different languages, including English, Chinese and French, however, the field remains underdeveloped for Urdu, the 10th most spoken language. In the realm of well-known languages, intent detection predictors utilize the strategy of few-shot learning and prediction of unseen classes based on the model training on seen classes. However, Urdu language lacks few-shot strategy based intent detection predictors and traditional predictors are focused on prediction of the same classes which models have seen in the train set. To empower Urdu language specific intent detection, this introduces a unique contrastive learning approach that leverages unlabeled Urdu data to re-train pre-trained language models. This re-training empowers LLMs representation learning for the downstream intent detection task. Finally, it reaps the combined potential of pre-trained LLMs and the prototype-informed attention mechanism to create a comprehensive end-to-end LLMPIA intent detection pipeline. Under the paradigm of proposed predictive pipeline, it explores the potential of 6 distinct language models and 13 distinct similarity computation methods. The proposed framework is evaluated on 2 public benchmark datasets, namely ATIS encompassing 5836 samples and Web Queries having 8519 samples. Across ATIS dataset under 4-way 1 shot and 4-way 5 shot experimental settings LLMPIA achieved 83.28% and 98.25% F1-Score and on Web Queries dataset produced 76.23% and 84.42% F1-Score, respectively. In an additional case study on the Web Queries dataset under same classes train and test set settings, LLMPIA outperformed state-of-the-art predictor by 53.55% F1-Score.
- Abstract(参考訳): 多言語的意図検出予測器は、英語、中国語、フランス語など様々な言語で開発されているが、ウルドゥー語は10番目に話されている言語である。
有名な言語の領域では、意図検出予測器は、見知らぬクラスに対するモデルトレーニングに基づいて、少数ショット学習の戦略と、見つからないクラスの予測を利用する。
しかし、Urdu言語は戦略に基づく意図検出予測器がほとんどなく、伝統的な予測器は列車のセットで見られるモデルと同じクラスの予測に重点を置いている。
Urdu言語固有の意図検出を強化するために、未ラベルのUrduデータを利用して事前訓練された言語モデルを再訓練するユニークなコントラスト学習アプローチを導入する。
この再訓練により、下流意図検出タスクにおけるLLM表現学習が強化される。
最後に、事前訓練されたLCMとプロトタイプインフォームドアテンション機構の組み合わせの可能性を享受し、総合的なエンドツーエンドLLMPIAインテント検出パイプラインを作成する。
提案する予測パイプラインのパラダイムの下で、6つの異なる言語モデルと13の異なる類似性計算手法の可能性を探求する。
提案したフレームワークは、2つの公開ベンチマークデータセットで評価されている。ATISは5836のサンプルと8519のサンプルを持つWebクエリを含んでいる。
4ウェイ1ショットと4ウェイ5ショットのATISデータセット全体で、LLMPIAは83.28%、F1スコアは98.25%、Web Queriesデータセットは76.23%、F1スコアは84.42%であった。
同じクラストレインとテストセット設定下でのWeb Queriesデータセットに関するさらなるケーススタディでは、LLMPIAは最先端の予測器を53.55%F1-Scoreで上回りました。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Leveraging Multilingual Self-Supervised Pretrained Models for
Sequence-to-Sequence End-to-End Spoken Language Understanding [34.81777967854573]
複数言語で事前訓練された音声とテキストモデルを統合し,4言語で6つのデータセット上でE2E-SLUを実行する統一手法を提案する。
提案手法は,複数の学習目標を用いて,広く利用可能な音声認識データを事前学習することにより,どのように改善できるかを検討する。
論文 参考訳(メタデータ) (2023-10-09T19:22:51Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。