論文の概要: Multilingual Gradient Word-Order Typology from Universal Dependencies
- arxiv url: http://arxiv.org/abs/2402.01513v1
- Date: Fri, 2 Feb 2024 15:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:40:31.000366
- Title: Multilingual Gradient Word-Order Typology from Universal Dependencies
- Title(参考訳): 普遍的係り受けによる多言語勾配単語順型付け
- Authors: Emi Baylor and Esther Ploeger and Johannes Bjerva
- Abstract要約: WALSやGrambankなど、既存の類型的データベースは、主に分類形式に起因する不整合に悩まされている。
分類データではなく、連続価値データからなる新しいシードデータセットを導入することで、言語の多様性をよりよく反映できる。
- 参考スコア(独自算出の注目度): 2.968112652976397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While information from the field of linguistic typology has the potential to
improve performance on NLP tasks, reliable typological data is a prerequisite.
Existing typological databases, including WALS and Grambank, suffer from
inconsistencies primarily caused by their categorical format. Furthermore,
typological categorisations by definition differ significantly from the
continuous nature of phenomena, as found in natural language corpora. In this
paper, we introduce a new seed dataset made up of continuous-valued data,
rather than categorical data, that can better reflect the variability of
language. While this initial dataset focuses on word-order typology, we also
present the methodology used to create the dataset, which can be easily adapted
to generate data for a broader set of features and languages.
- Abstract(参考訳): 言語型学の分野からの情報はNLPタスクの性能を向上させる可能性があるが、信頼性の高い型学データは必須条件である。
WALSやGrambankといった既存の分類データベースは、主に分類形式によって生じる矛盾に悩まされている。
さらに、定義による類型分類は、自然言語コーパスに見られる現象の連続的な性質とは大きく異なる。
本稿では,言語の多様性をよりよく反映できる分類データではなく,連続的に評価されたデータからなる新しいシードデータセットを提案する。
この初期データセットは語順の類型論に重点を置いているが、より広範な特徴や言語のためのデータ生成に容易に適応できるデータセットを作成するための方法論も提示する。
関連論文リスト
- Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - The Past, Present, and Future of Typological Databases in NLP [2.968112652976397]
タイポロジー情報は、NLPモデルの開発において有益である可能性がある。
現在の大規模な類型データベース、特にWALSとGrambankは、互いに不整合であり、他の類型情報ソースとも矛盾している。
我々は,類型的データベースと資源間の相違点とそのNLPにおける利用を体系的に検討することによって,この問題を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-20T12:01:42Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Does Typological Blinding Impede Cross-Lingual Sharing? [31.20201199491578]
入力データから、言語間設定で訓練されたモデルが、タイプ的手がかりを拾い上げることを示す。
言語間の共有とパフォーマンスへの影響について検討する。
論文 参考訳(メタデータ) (2021-01-28T09:32:08Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。