論文の概要: Inference of Partial Colexifications from Multilingual Wordlists
- arxiv url: http://arxiv.org/abs/2302.00739v1
- Date: Wed, 1 Feb 2023 20:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 16:17:08.956946
- Title: Inference of Partial Colexifications from Multilingual Wordlists
- Title(参考訳): 多言語単語リストからの部分語彙化の推論
- Authors: Johann-Mattis List
- Abstract要約: 科学的構成としてのコレキシフィケーションは操作が容易であり、学者はコレキシフィケーションパターンを推測することができる。
本研究では,部分的照合処理に対する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.096615629099617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past years have seen a drastic rise in studies devoted to the
investigation of colexification patterns in individual languages families in
particular and the languages of the world in specific. Specifically
computational studies have profited from the fact that colexification as a
scientific construct is easy to operationalize, enabling scholars to infer
colexification patterns for large collections of cross-linguistic data. Studies
devoted to partial colexifications -- colexification patterns that do not
involve entire words, but rather various parts of words--, however, have been
rarely conducted so far. This is not surprising, since partial colexifications
are less easy to deal with in computational approaches and may easily suffer
from all kinds of noise resulting from false positive matches. In order to
address this problem, this study proposes new approaches to the handling of
partial colexifications by (1) proposing new models with which partial
colexification patterns can be represented, (2) developing new efficient
methods and workflows which help to infer various types of partial
colexification patterns from multilingual wordlists, and (3) illustrating how
inferred patterns of partial colexifications can be computationally analyzed
and interactively visualized.
- Abstract(参考訳): 過去数年間、個々の言語族、特に世界の言語における語彙化パターンの調査に費やされた研究が大幅に増加してきた。
具体的には、科学的な構造としてのコレキシフィケーションは操作が容易であるという事実から利益を得ており、研究者はクロス言語データの大規模なコレクションに対してコレキシフィケーションパターンを推測することができる。
しかし、部分的語彙化(単語全体ではなく、単語の様々な部分を含む語彙化パターン)に関する研究は、これまでほとんど行われていない。
部分コレクサフィケーションは計算のアプローチでは扱いにくく、偽の正の一致によって生じるあらゆる種類のノイズに苦しむ可能性があるため、これは驚くべきことではない。
この問題に対処するために,(1)部分照合パターンを表現可能な新しいモデルを提案すること,(2)多言語ワードリストから様々なタイプの部分照合パターンを推測する上で有効な手法とワークフローを開発すること,(3)部分照合パターンの計算的解析とインタラクティブな可視化を行うことによる部分照合処理の新しいアプローチを提案する。
関連論文リスト
- Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination [1.4705596514165422]
本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。
生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。
論文 参考訳(メタデータ) (2024-04-07T07:34:49Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Crosslingual Transfer Learning for Low-Resource Languages Based on
Multilingual Colexification Graphs [18.277376249064403]
コレキシフィケーション(英: Colexification)とは、2つ以上の異なる意味を持つ語彙形式の現象を指す。
我々は,1,335言語にまたがる2,000以上の概念の照合パターンを,注釈のない並列コーパスから直接同定する。
本論文では,ColexNetとColexNet+という照合パターンから多言語グラフを構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T08:20:23Z) - Lexical Generalization Improves with Larger Models and Longer Training [42.024050065980845]
本稿では,自然言語推論,パラフレーズ検出,読解理解における語彙重なりの活用について分析する。
より大型のモデルでは、語彙的な重複を採用することへの感受性がはるかに低いことが分かりました。
論文 参考訳(メタデータ) (2022-10-23T09:20:11Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。