論文の概要: MuDRiC: Multi-Dialect Reasoning for Arabic Commonsense Validation
- arxiv url: http://arxiv.org/abs/2508.13130v1
- Date: Mon, 18 Aug 2025 17:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.515538
- Title: MuDRiC: Multi-Dialect Reasoning for Arabic Commonsense Validation
- Title(参考訳): MuDRiC: アラビア語のCommonsense Validationのためのマルチディレクト推論
- Authors: Kareem Elozeiri, Mervat Abassy, Preslav Nakov, Yuxia Wang,
- Abstract要約: 複数の方言を組み込んだ拡張アラビア・コモンセンスデータセットである MuDRiC を導入し,(ii) アラビア・コモンセンス推論にグラフ畳み込みネットワーク(GCN)を適応させる新しい手法を提案する。
我々の研究は、その複雑なバリエーションを扱うための基礎的データセットと新しい方法の両方を提供することで、アラビア語の自然言語理解を強化する。
- 参考スコア(独自算出の注目度): 30.670712065855902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense validation evaluates whether a sentence aligns with everyday human understanding, a critical capability for developing robust natural language understanding systems. While substantial progress has been made in English, the task remains underexplored in Arabic, particularly given its rich linguistic diversity. Existing Arabic resources have primarily focused on Modern Standard Arabic (MSA), leaving regional dialects underrepresented despite their prevalence in spoken contexts. To bridge this gap, we present two key contributions: (i) we introduce MuDRiC, an extended Arabic commonsense dataset incorporating multiple dialects, and (ii) a novel method adapting Graph Convolutional Networks (GCNs) to Arabic commonsense reasoning, which enhances semantic relationship modeling for improved commonsense validation. Our experimental results demonstrate that this approach achieves superior performance in Arabic commonsense validation. Our work enhances Arabic natural language understanding by providing both a foundational dataset and a novel method for handling its complex variations. To the best of our knowledge, we release the first Arabic multi-dialect commonsense reasoning dataset.
- Abstract(参考訳): コモンセンス検証は、文が日常的な人間の理解と一致しているかを評価する。
英語ではかなりの進歩があったが、アラビア語では未熟であり、特にその豊富な言語的多様性を考えればなおさらである。
既存のアラビアの資源は主に現代標準アラビア語(MSA)に焦点を合わせており、話し言葉の文脈での流行にもかかわらず、地域方言の表現は過小評価されている。
このギャップを埋めるために、私たちは2つの重要なコントリビューションを提示します。
(i)複数の方言を組み込んだアラビア語コモンセンスデータセットである MuDRiC を導入する。
(II) グラフ畳み込みネットワーク(GCN)をアラビア・コモンセンス推論に適用し, セマンティック・リレーション・モデリングを強化してコモンセンス・バリデーションを改善する手法である。
実験の結果,アラビア・コモンセンスの検証において,本手法が優れた性能を発揮することが示された。
我々の研究は、その複雑なバリエーションを扱うための基礎的データセットと新しい方法の両方を提供することで、アラビア語の自然言語理解を強化する。
我々の知る限りでは、最初のアラビア語多言語共通センス推論データセットをリリースする。
関連論文リスト
- Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - Large Language Models and Arabic Content: A Review [0.0]
本研究は,アラビア語に対する大規模言語モデル (LLM) の利用について概説する。
様々なNLPアプリケーションにまたがる、初期の訓練済みのアラビア語モデルを強調している。
また、ファインチューニングやプロンプトエンジニアリングのような技術がこれらのモデルの性能を高める方法の概要も提供する。
論文 参考訳(メタデータ) (2025-05-12T19:09:12Z) - A Survey of Code-switched Arabic NLP: Progress, Challenges, and Future Directions [33.45834558604992]
我々は、コードスイッチされたアラビア語NLPの分野における現在の文献についてレビューする。
地域全体でのコードスイッチングが広まっており、言語技術を開発する際には、これらの言語的ニーズに対処することが不可欠である。
論文 参考訳(メタデータ) (2025-01-23T06:46:23Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - 101 Billion Arabic Words Dataset [0.0]
本研究の目的は、アラブ世界のデータ不足に対処し、アラビア語モデルの開発を促進することである。
我々は大規模なデータマイニングプロジェクトを行い、Common Crawl WETファイルから大量のテキストを抽出した。
抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。
論文 参考訳(メタデータ) (2024-04-29T13:15:03Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。