論文の概要: Standardizing linguistic data: method and tools for annotating
(pre-orthographic) French
- arxiv url: http://arxiv.org/abs/2011.11074v1
- Date: Sun, 22 Nov 2020 17:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 08:50:21.422893
- Title: Standardizing linguistic data: method and tools for annotating
(pre-orthographic) French
- Title(参考訳): 言語データの標準化:フランス語のアノテートのための方法とツール
- Authors: Simon Gabay (UNIGE), Thibault Cl\'erice (ENC), Jean-Baptiste Camps
(ENC), Jean-Baptiste Tanguy (SU), Matthias Gille-Levenson (ENS Lyon)
- Abstract要約: 本稿では、方法論的(アノテーションの原則を提案する)と技術的(必要なトレーニングデータと関連するモデルを作成する)の両方について、(初期)現代フランス語(16-18世紀)の言語タグの作成について述べる。
我々は可能な限り、現代、特に中世フランス語の既存の標準を考慮に入れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of big corpora of various periods, it becomes crucial to
standardise linguistic annotation (e.g. lemmas, POS tags, morphological
annotation) to increase the interoperability of the data produced, despite
diachronic variations. In the present paper, we describe both methodologically
(by proposing annotation principles) and technically (by creating the required
training data and the relevant models) the production of a linguistic tagger
for (early) modern French (16-18th c.), taking as much as possible into account
already existing standards for contemporary and, especially, medieval French.
- Abstract(参考訳): 様々な時代の大きなコーパスの発達に伴い、言語アノテーション(例えば、レムマ、POSタグ、形態的アノテーション)を標準化し、ダイアクロニックな変化にもかかわらず生成されたデータの相互運用性を高めることが重要となる。
本稿では,(アノテーションの原則を提案することによって)方法論的に,技術的に(必要な訓練データと関連するモデルを作成することによって)近代フランス語(16~18世紀)のための言語タグの生成を記述し,現代フランス語,特に中世フランス語の既存の標準を可能な限り考慮し,その両方について述べる。
関連論文リスト
- Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - MACT: Model-Agnostic Cross-Lingual Training for Discourse Representation Structure Parsing [4.536003573070846]
意味表現解析モデルのための言語間学習戦略を導入する。
事前訓練された言語モデルにエンコードされた言語間のアライメントを利用する。
実験では、英語、ドイツ語、イタリア語、オランダ語におけるDRS節とグラフ解析の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-03T07:02:57Z) - We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。
学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、知識伝達がいつ成功するかについて重要な洞察を得ることができる。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Benchmarking Transformers-based models on French Spoken Language
Understanding tasks [4.923118300276026]
我々は、フランス語の2つの音声言語理解タスク(MEDIAとATIS-FR)をトランスフォーマーベースモデルでベンチマークした。
コンパクトモデルでは大きなモデルに匹敵する結果が得られるが、生態学的影響は極めて低い。
論文 参考訳(メタデータ) (2022-07-19T09:47:08Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。