論文の概要: CaMEL: Case Marker Extraction without Labels
- arxiv url: http://arxiv.org/abs/2203.10010v1
- Date: Fri, 18 Mar 2022 15:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:49:27.205516
- Title: CaMEL: Case Marker Extraction without Labels
- Title(参考訳): CaMEL:ラベルのないケースマーカー抽出
- Authors: Leonie Weissweiler, Valentin Hofmann, Masoud Jalili Sabet, Hinrich
Sch\"utze
- Abstract要約: 本稿では,計算形態学の新しい課題であるCaMEL(Case Marker extract without Labels)を紹介する。
名詞句チャンパーとアライメントシステムのみをベースとして,多言語コーパスを用いて83言語でケースマーカーを抽出するCaMELの最初のモデルを提案する。
- 参考スコア(独自算出の注目度): 7.245261469258502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CaMEL (Case Marker Extraction without Labels), a novel and
challenging task in computational morphology that is especially relevant for
low-resource languages. We propose a first model for CaMEL that uses a
massively multilingual corpus to extract case markers in 83 languages based
only on a noun phrase chunker and an alignment system. To evaluate CaMEL, we
automatically construct a silver standard from UniMorph. The case markers
extracted by our model can be used to detect and visualise similarities and
differences between the case systems of different languages as well as to
annotate fine-grained deep cases in languages in which they are not overtly
marked.
- Abstract(参考訳): 本稿では,低リソース言語に特に関係のある計算形態学の新しい課題であるCaMEL(Case Marker extract without Labels)を紹介する。
名詞句チャンパーとアライメントシステムのみをベースとして,多言語コーパスを用いて83言語でケースマーカーを抽出するCaMELの最初のモデルを提案する。
CaMELを評価するために、UniMorphから銀標準を自動構築する。
モデルにより抽出されたケースマーカーは,異なる言語のケースシステム間の類似点や相違点を検出し,可視化するために,また,過度にマークされていない言語において,詳細な深いケースに注釈を付けるために利用できる。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - MultiTACRED: A Multilingual Version of the TAC Relation Extraction
Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。
翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。
対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-08T09:48:21Z) - Larger language models do in-context learning differently [93.90674531127559]
言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。
ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
論文 参考訳(メタデータ) (2023-03-07T12:24:17Z) - Cross-lingual Similarity of Multilingual Representations Revisited [0.0]
CKA/CCAの仮定は、言語間学習分析のモチベーションの1つとよく一致しない。
CKA/CCAの難易度を除外した簡単な代替手段として,textitAverage Neuron-Wise correlation (ANC)を導入した。
論文 参考訳(メタデータ) (2022-12-04T21:02:07Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - Sparsely Factored Neural Machine Translation [3.4376560669160394]
言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、注釈付き特徴ごとに別々の語彙を維持することである。
そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。
低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。
論文 参考訳(メタデータ) (2021-02-17T18:42:00Z) - UniCase -- Rethinking Casing in Language Models [0.0913755431537592]
言語モデリング(LM)におけるケースセンシティネス問題に対する新しいアプローチを提案する。
我々は,RoBERTa言語モデルに対して,統一ケースLM(UniCase)と命名した新しいトークン化戦略を伴って,シンプルなアーキテクチャ変更を提案する。
論文 参考訳(メタデータ) (2020-10-22T17:58:44Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。