論文の概要: Exploring Data and Parameter Efficient Strategies for Arabic Dialect Identifications
- arxiv url: http://arxiv.org/abs/2509.13775v1
- Date: Wed, 17 Sep 2025 07:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.765731
- Title: Exploring Data and Parameter Efficient Strategies for Arabic Dialect Identifications
- Title(参考訳): アラビア方言識別のためのデータとパラメータ効率の探索
- Authors: Vani Kanjirangat, Ljiljana Dolamic, Fabio Rinaldi,
- Abstract要約: アラビア方言識別(ADI)におけるデータ効率とパラメータ効率の異なるアプローチについて検討する。
データ効率の戦略では、ゼロショットと少数ショットの推論でハードプロンプトを解析する。
パラメータ効率のよいPEFT手法について,アラビア固有エンコーダモデルを用いて実験を行った。
- 参考スコア(独自算出の注目度): 7.883762084227455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses our exploration of different data-efficient and parameter-efficient approaches to Arabic Dialect Identification (ADI). In particular, we investigate various soft-prompting strategies, including prefix-tuning, prompt-tuning, P-tuning, and P-tuning V2, as well as LoRA reparameterizations. For the data-efficient strategy, we analyze hard prompting with zero-shot and few-shot inferences to analyze the dialect identification capabilities of Large Language Models (LLMs). For the parameter-efficient PEFT approaches, we conducted our experiments using Arabic-specific encoder models on several major datasets. We also analyzed the n-shot inferences on open-source decoder-only models, a general multilingual model (Phi-3.5), and an Arabic-specific one(SILMA). We observed that the LLMs generally struggle to differentiate the dialectal nuances in the few-shot or zero-shot setups. The soft-prompted encoder variants perform better, while the LoRA-based fine-tuned models perform best, even surpassing full fine-tuning.
- Abstract(参考訳): 本稿では、アラビア方言識別(ADI)に対するデータ効率とパラメータ効率の異なるアプローチについて検討する。
特に,プレフィックスチューニング,プロンプトチューニング,Pチューニング,PチューニングV2,LoRA再パラメータ化など,様々なソフトプロンプト戦略について検討した。
データ効率のよい戦略として、ゼロショットおよび少数ショット推論を用いてハードプロンプトを分析し、Large Language Models (LLMs) の方言識別能力を解析する。
パラメータ効率のよいPEFT手法について,アラビア固有エンコーダモデルを用いて実験を行った。
また、オープンソースデコーダのみのモデル、汎用多言語モデル(Phi-3.5)、アラビア固有モデル(SILMA)のnショット推論を解析した。
LLMは概して、数発または0発のセットアップにおいて方言のニュアンスを区別するのに苦労している。
ソフトにプロンプトされたエンコーダは性能が良く、LoRAベースの細調整モデルは完全な細調整を超越している。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Analysis of LLM as a grammatical feature tagger for African American English [0.6927055673104935]
アフリカ系アメリカ人英語(AAE)は自然言語処理(NLP)に固有の課題を提示している
本研究では,利用可能なNLPモデルの性能を体系的に比較する。
本研究は,AAEの固有の言語特性をよりよく適合させるために,モデルトレーニングとアーキテクチャ調整の改善の必要性を強調した。
論文 参考訳(メタデータ) (2025-02-09T19:46:33Z) - Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper [21.656923341138103]
本研究は,学習データがない場合の新たな言語モデルを強化するための戦略について検討する。
中国のウイスパーモデル(ウイグル語とチベット語)による実験では、よりコンパクトなパラメータセットでより良い結果が得られる。
論文 参考訳(メタデータ) (2024-08-20T09:31:59Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。