論文の概要: An efficient automated data analytics approach to large scale
computational comparative linguistics
- arxiv url: http://arxiv.org/abs/2001.11899v1
- Date: Fri, 31 Jan 2020 15:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:28:53.033711
- Title: An efficient automated data analytics approach to large scale
computational comparative linguistics
- Title(参考訳): 大規模計算比較言語学における効率的な自動データ分析手法
- Authors: Gabija Mikulyte and David Gilbert
- Abstract要約: この研究プロジェクトは、人間の言語関係を分析するという課題を克服することを目的としている。
特定のキーワードと概念の音声表現に基づく自動比較手法を開発した。
これは後にUnixシェルスクリプト、開発Rパッケージ、SWI Prologを組み合わせて実装されたワークフローの開発につながった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research project aimed to overcome the challenge of analysing human
language relationships, facilitate the grouping of languages and formation of
genealogical relationship between them by developing automated comparison
techniques. Techniques were based on the phonetic representation of certain key
words and concept. Example word sets included numbers 1-10 (curated), large
database of numbers 1-10 and sheep counting numbers 1-10 (other sources),
colours (curated), basic words (curated).
To enable comparison within the sets the measure of Edit distance was
calculated based on Levenshtein distance metric. This metric between two
strings is the minimum number of single-character edits, operations including:
insertions, deletions or substitutions. To explore which words exhibit more or
less variation, which words are more preserved and examine how languages could
be grouped based on linguistic distances within sets, several data analytics
techniques were involved. Those included density evaluation, hierarchical
clustering, silhouette, mean, standard deviation and Bhattacharya coefficient
calculations. These techniques lead to the development of a workflow which was
later implemented by combining Unix shell scripts, a developed R package and
SWI Prolog. This proved to be computationally efficient and permitted the fast
exploration of large language sets and their analysis.
- Abstract(参考訳): 本研究は,人間言語関係の分析,言語分類の促進,自動比較手法の開発による血統関係の形成といった課題を克服することを目的とした。
技法は特定のキーワードや概念の音声表現に基づいていた。
例えば、数字1-10(キュレート)、数字1-10の膨大なデータベース、1-10(他のソース)、色(キュレート)、基本語(キュレート)などがある。
セット内の比較を可能にするために、レベンシュテイン距離メトリックに基づいて編集距離の測定値を算出した。
この2つの文字列間のメトリックは、挿入、削除、置換を含む1文字編集の最小数である。
どの単語が多かれ少なかれ変化を示し、どの単語がより保存され、セット内の言語的距離に基づいてどのように言語をグループ化できるかを調べるために、いくつかのデータ分析技術が関与した。
それらは密度評価,階層クラスタリング,シルエット,平均,標準偏差,バッタチャリヤ係数計算などであった。
これらの技術は後にUnixシェルスクリプト、開発Rパッケージ、SWI Prologを組み合わせて実装されたワークフローの開発につながった。
これは計算効率が良く、大規模な言語セットの迅速な探索と分析を可能にした。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Standardizing the Measurement of Text Diversity: A Tool and a
Comparative Analysis of Scores [30.12630686473324]
圧縮アルゴリズムは,n$-gramのオーバーラップスコアの計算を遅くすることで,測定値に類似した情報を取得する。
スコアの適用性は、生成モデルの解析を超えて拡張される。
論文 参考訳(メタデータ) (2024-03-01T14:23:12Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Sentiment Classification of Code-Switched Text using Pre-trained
Multilingual Embeddings and Segmentation [1.290382979353427]
コード切替型感情分析のための多段階自然言語処理アルゴリズムを提案する。
提案アルゴリズムは、人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。
論文 参考訳(メタデータ) (2022-10-29T01:52:25Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。