論文の概要: Parsing the Switch: LLM-Based UD Annotation for Complex Code-Switched and Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2506.07274v1
- Date: Sun, 08 Jun 2025 20:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.743532
- Title: Parsing the Switch: LLM-Based UD Annotation for Complex Code-Switched and Low-Resource Languages
- Title(参考訳): スイッチのパーシング: 複雑なコードスイッチおよび低リソース言語のためのLLMベースのUDアノテーション
- Authors: Olga Kellert, Nemika Tyagi, Muhammad Imran, Nelvin Licona-Guevara, Carlos Gómez-Rodríguez,
- Abstract要約: BiLinguaは、コード変更されたテキストに対するUniversal Dependencies(UD)アノテーションのためのパイプラインである。
まず、スペイン語とスペイン語のGuaran'iデータのためのプロンプトベースのフレームワークを開発する。
第2に、最初のスペインのGuaran'i-parsed corpusを含む2つのデータセットをリリースします。
第3に、言語対と通信コンテキスト間のスイッチポイントの詳細な構文解析を行う。
- 参考スコア(独自算出の注目度): 11.627508350795118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching presents a complex challenge for syntactic analysis, especially in low-resource language settings where annotated data is scarce. While recent work has explored the use of large language models (LLMs) for sequence-level tagging, few approaches systematically investigate how well these models capture syntactic structure in code-switched contexts. Moreover, existing parsers trained on monolingual treebanks often fail to generalize to multilingual and mixed-language input. To address this gap, we introduce the BiLingua Parser, an LLM-based annotation pipeline designed to produce Universal Dependencies (UD) annotations for code-switched text. First, we develop a prompt-based framework for Spanish-English and Spanish-Guaran\'i data, combining few-shot LLM prompting with expert review. Second, we release two annotated datasets, including the first Spanish-Guaran\'i UD-parsed corpus. Third, we conduct a detailed syntactic analysis of switch points across language pairs and communicative contexts. Experimental results show that BiLingua Parser achieves up to 95.29% LAS after expert revision, significantly outperforming prior baselines and multilingual parsers. These results show that LLMs, when carefully guided, can serve as practical tools for bootstrapping syntactic resources in under-resourced, code-switched environments. Data and source code are available at https://github.com/N3mika/ParsingProject
- Abstract(参考訳): コードスイッチングは、特に注釈付きデータが不足している低リソースの言語設定において、構文解析の複雑な課題を示す。
最近の研究では、シーケンスレベルのタグ付けに大規模言語モデル (LLM) を用いる方法が検討されているが、コード切替コンテキストにおいて、これらのモデルがどのように構文構造を捕捉するかを体系的に検討するアプローチはほとんどない。
さらに、モノリンガルツリーバンクで訓練された既存のパーサーは、多言語および混合言語入力への一般化に失敗することが多い。
このギャップに対処するために,コードスイッチトテキストのユニバーサル依存性(UD)アノテーションを生成するために,LLMベースのアノテーションパイプラインであるBiLingua Parserを紹介した。
まず、スペイン語とスペイン語のGuaran\'iデータのためのプロンプトベースのフレームワークを開発する。
第2に、最初のスペイン語-Guaran\'i UD-parsed corpusを含む2つの注釈付きデータセットをリリースする。
第3に、言語対と通信コンテキスト間のスイッチポイントの詳細な構文解析を行う。
実験の結果、BiLingua Parserは、専門家による改訂後に最大95.29%のLASを達成し、以前のベースラインや多言語パーサーよりも大幅に優れていた。
これらの結果から,LLMは,低リソースのコードスイッチング環境において,構文資源をブートストラップする実用的なツールとして機能することが示唆された。
データとソースコードはhttps://github.com/N3mika/ParsingProjectで入手できる。
関連論文リスト
- CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy Abstention [9.76878200328024]
大規模言語モデル (LLM) はしばしば言語間の知識格差を示す。
textitCausalAbstain は LLM が複数のフィードバック応答を利用するかどうかを判断するのに役立つ手法である。
textitCausalAbstainは有用なフィードバックを効果的に選択し、解釈可能性による禁忌決定を強化する。
論文 参考訳(メタデータ) (2025-05-31T11:35:31Z) - LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:45:03Z) - Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。