論文の概要: Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models
- arxiv url: http://arxiv.org/abs/2603.16718v1
- Date: Tue, 17 Mar 2026 16:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.395078
- Title: Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたアラビア語のモルフォシンタクティックタグと依存性解析
- Authors: Mohamed Adel, Bashar Alhafni, Nizar Habash,
- Abstract要約: 大規模言語モデル(LLM)は多くのNLPタスクで強く機能するが、明示的な言語構造を生成する能力は未だ不明である。
アラビア標準語における2つの構造的予測タスク(モルフォシンタクティックタグ付けとラベル付き依存解析)について,命令調整型LLMの評価を行った。
- 参考スコア(独自算出の注目度): 13.143003615122245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) perform strongly on many NLP tasks, but their ability to produce explicit linguistic structure remains unclear. We evaluate instruction-tuned LLMs on two structured prediction tasks for Standard Arabic: morphosyntactic tagging and labeled dependency parsing. Arabic provides a challenging testbed due to its rich morphology and orthographic ambiguity, which create strong morphology-syntax interactions. We compare zero-shot prompting with retrieval-based in-context learning (ICL) using examples from Arabic treebanks. Results show that prompt design and demonstration selection strongly affect performance: proprietary models approach supervised baselines for feature-level tagging and become competitive with specialized dependency parsers. In raw-text settings, tokenization remains challenging, though retrieval-based ICL improves both parsing and tokenization. Our analysis highlights which aspects of Arabic morphosyntax and syntax LLMs capture reliably and which remain difficult.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのNLPタスクで強く機能するが、明示的な言語構造を生成する能力は未だ不明である。
アラビア標準語における2つの構造的予測タスク(モルフォシンタクティックタグ付けとラベル付き依存解析)について,命令調整型LLMの評価を行った。
アラビア語は、その豊富な形態と正統的な曖昧さのために、強力な形態と構文の相互作用を生み出す挑戦的なテストベッドを提供する。
我々は、アラビア語のツリーバンクの例を用いて、ゼロショットプロンプトと検索ベースのインコンテキスト学習(ICL)を比較した。
プロプライエタリなモデルは,機能レベルのタグ付けのための教師付きベースラインにアプローチし,特殊な依存性解析と競合するようになる。
生のテキスト設定ではトークン化は難しいが、検索ベースのICLは解析とトークン化の両方を改善している。
本分析では,アラビア語形態素解析と構文LLMのどの側面が確実に捉えられ,難易度は維持されているかを強調した。
関連論文リスト
- Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs [6.520393736113561]
本研究では,大言語モデル(LLM)がアラビア語根パターン形態をいかに効果的に表現し,生成するかを検討する。
本研究は,金標準セグメンテーションに対するアラビアおよび多言語トークン化剤間の形態的忠実度の評価から始まった。
以上の結果から, コントラマイザの形態的アライメントは形態的アライメントに必要ではなく, かつ, 形態的アライメントに十分であることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-16T18:05:01Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - IMPACT: Inflectional Morphology Probes Across Complex Typologies [0.0]
IMPACTは、屈折形態学に焦点を当てた、合成的に生成された評価フレームワークである。
アラビア語、ロシア語、フィンランド語、トルコ語、ヘブライ語という5つの形態学的に豊かな言語のパフォーマンスを評価するように設計されている。
英語のパフォーマンスが強いにもかかわらず、他の言語と競合する8つの多言語LLMと、一般的でない形態素パターンを評価した。
論文 参考訳(メタデータ) (2025-06-30T14:58:23Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Analysis of LLM as a grammatical feature tagger for African American English [0.6927055673104935]
アフリカ系アメリカ人英語(AAE)は自然言語処理(NLP)に固有の課題を提示している
本研究では,利用可能なNLPモデルの性能を体系的に比較する。
本研究は,AAEの固有の言語特性をよりよく適合させるために,モデルトレーニングとアーキテクチャ調整の改善の必要性を強調した。
論文 参考訳(メタデータ) (2025-02-09T19:46:33Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models [0.0]
本稿では,アラビア語モデルの性能に及ぼすトークン化戦略と語彙サイズの影響について検討する。
本研究は, 語彙サイズがモデルサイズを一定に保ちながら, モデル性能に及ぼす影響を限定的に明らかにした。
論文のレコメンデーションには、方言の課題に対処するためのトークン化戦略の洗練、多様な言語コンテキストにわたるモデルの堅牢性の向上、リッチな方言ベースのアラビア語を含むデータセットの拡大が含まれる。
論文 参考訳(メタデータ) (2024-03-17T07:44:44Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。