論文の概要: dziribot: rag based intelligent conversational agent for algerian arabic dialect
- arxiv url: http://arxiv.org/abs/2602.02270v1
- Date: Mon, 02 Feb 2026 16:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.282827
- Title: dziribot: rag based intelligent conversational agent for algerian arabic dialect
- Title(参考訳): Dziribot:アルジェリア・アラビア方言のための ragベースのインテリジェントな会話エージェント
- Authors: El Batoul Bechiri, Dihia Lanasri,
- Abstract要約: 本稿では,これらの課題を克服するために特別に設計された対話型ハイブリッドエージェントDziriBOTを紹介する。
特殊自然言語理解(NLU)と検索拡張生成(RAG)を統合した多層アーキテクチャを提案する。
実験により,DziriBERTモデルが最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid digitalization of customer service has intensified the demand for conversational agents capable of providing accurate and natural interactions. In the Algerian context, this is complicated by the linguistic complexity of Darja, a dialect characterized by non-standardized orthography, extensive code-switching with French, and the simultaneous use of Arabic and Latin (Arabizi) scripts. This paper introduces DziriBOT, a hybrid intelligent conversational agent specifically engineered to overcome these challenges. We propose a multi-layered architecture that integrates specialized Natural Language Understanding (NLU) with Retrieval-Augmented Generation (RAG), allowing for both structured service flows and dynamic, knowledge-intensive responses grounded in curated enterprise documentation. To address the low-resource nature of Darja, we systematically evaluate three distinct approaches: a sparse-feature Rasa pipeline, classical machine learning baselines, and transformer-based fine-tuning. Our experimental results demonstrate that the fine-tuned DziriBERT model achieves state-of-the-art performance. These results significantly outperform traditional baselines, particularly in handling orthographic noise and rare intents. Ultimately, DziriBOT provides a robust, scalable solution that bridges the gap between formal language models and the linguistic realities of Algerian users, offering a blueprint for dialect-aware automation in the regional market.
- Abstract(参考訳): 顧客サービスの迅速なデジタル化は、正確で自然な対話を提供する会話エージェントの需要を増大させてきた。
アルジェリアの文脈では、これはダルジャの言語的な複雑さ、非標準正書法、フランス語との広範なコード交換、アラビア文字とラテン文字(アラビジ文字)の同時使用を特徴とする方言によって複雑である。
本稿では,これらの課題を克服するために特別に設計された対話型ハイブリッドエージェントDziriBOTを紹介する。
本稿では,NLU(Natural Language Understanding)とRAG(Retrieval-Augmented Generation)を統合した多層アーキテクチャを提案する。
Darjaの低リソース性に対処するため、スパース機能Rasaパイプライン、古典的な機械学習ベースライン、トランスフォーマーベースの微調整という3つの異なるアプローチを体系的に評価した。
実験により,DziriBERTモデルが最先端性能を実現することを示す。
これらの結果は、特に正書法ノイズや稀な意図を扱う際に、従来のベースラインを著しく上回る。
最終的にDziriBOTは、フォーマルな言語モデルとアルジェリア人の言語現実のギャップを埋める堅牢でスケーラブルなソリューションを提供し、地域市場における方言認識自動化の青写真を提供する。
関連論文リスト
- Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis [20.50741854108831]
本稿では,特殊・統一された音声合成モデルであるHabibiを紹介する。
当社のアプローチは、先進的な商用サービスの世代品質を上回ります。
我々は、多言語アラビア語音声合成のための最初の体系的ベンチマークを作成する。
論文 参考訳(メタデータ) (2026-01-20T10:02:11Z) - Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning [0.0]
本稿では,弱教師付き学習と教師付き微調整を組み合わせたスケーラブルな学習パイプラインを提案する。
提案手法は,多言語アラビア語のASR課題において第1位にランクインし,最先端の成果を達成している。
論文 参考訳(メタデータ) (2025-08-12T13:02:22Z) - Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。
LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。
実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文 参考訳(メタデータ) (2025-06-11T07:06:27Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - DarijaBanking: A New Resource for Overcoming Language Barriers in Banking Intent Detection for Moroccan Arabic Speakers [5.274804664403783]
言語多様性の複雑さをナビゲートすることは、堅牢な自然言語処理システムの開発における中心的な課題である。
本稿では,銀行分野における意図分類の強化を目的とした新しいDarijaデータセットであるtextbfDarijaBankingを紹介する。
DarijaBankingは、Darija、Modern Standard Arabic (MSA)、英語、フランス語で1,800以上の並列な高品質なクエリで構成されており、24のインテントクラスで構成されている。
論文 参考訳(メタデータ) (2024-05-26T08:33:28Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Gaussian Smoothen Semantic Features (GSSF) -- Exploring the Linguistic
Aspects of Visual Captioning in Indian Languages (Bengali) Using MSCOCO
Framework [9.89901717499058]
本研究では,インド地域言語を用いた画像キャプションのためのセマンティック選択法として,Gaussian Smoothen Semantic Features (GSSF)を導入した。
また、既存の翻訳文と英語のクラウドソース文をトレーニングに使用する手順も導入した。
この研究の主な貢献は、ベンガル語のためのディープラーニングアーキテクチャの開発です。
論文 参考訳(メタデータ) (2020-02-16T23:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。