論文の概要: On Language Clustering: A Non-parametric Statistical Approach
- arxiv url: http://arxiv.org/abs/2209.06720v1
- Date: Wed, 14 Sep 2022 15:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:37:28.970646
- Title: On Language Clustering: A Non-parametric Statistical Approach
- Title(参考訳): 言語クラスタリングについて:非パラメトリック統計的アプローチ
- Authors: Anagh Chattopadhyay, Soumya Sankar Ghosh, Samir Karmakar
- Abstract要約: 本研究は,非パラメトリックな非均一データフレームワークに適用可能な統計的アプローチを提案する。
また、自然言語処理や言語クラスタリングの分野での応用についても検討している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Any approach aimed at pasteurizing and quantifying a particular phenomenon
must include the use of robust statistical methodologies for data analysis.
With this in mind, the purpose of this study is to present statistical
approaches that may be employed in nonparametric nonhomogeneous data
frameworks, as well as to examine their application in the field of natural
language processing and language clustering. Furthermore, this paper discusses
the many uses of nonparametric approaches in linguistic data mining and
processing. The data depth idea allows for the centre-outward ordering of
points in any dimension, resulting in a new nonparametric multivariate
statistical analysis that does not require any distributional assumptions. The
concept of hierarchy is used in historical language categorisation and
structuring, and it aims to organise and cluster languages into subfamilies
using the same premise. In this regard, the current study presents a novel
approach to language family structuring based on non-parametric approaches
produced from a typological structure of words in various languages, which is
then converted into a Cartesian framework using MDS. This
statistical-depth-based architecture allows for the use of data-depth-based
methodologies for robust outlier detection, which is extremely useful in
understanding the categorization of diverse borderline languages and allows for
the re-evaluation of existing classification systems. Other depth-based
approaches are also applied to processes such as unsupervised and supervised
clustering. This paper therefore provides an overview of procedures that can be
applied to nonhomogeneous language classification systems in a nonparametric
framework.
- Abstract(参考訳): 特定の現象を解析・定量化するためには、データ解析に頑健な統計手法を使う必要がある。
本研究の目的は,非パラメトリックな非均一データフレームワークに適用可能な統計的アプローチを提案するとともに,自然言語処理や言語クラスタリングの分野におけるそれらの応用を検討することである。
本稿では,言語データマイニングと処理における非パラメトリック手法の多用について述べる。
データ深度の概念は任意の次元の点の中心から外側への順序付けを可能にし、新しい非パラメトリックな多変量統計解析をもたらす。
階層の概念は、歴史的言語分類と構造化に使われ、同じ前提で言語とクラスタをサブファミリーに編成することを目的としている。
そこで本研究では,多言語における単語の類型構造から生成される非パラメトリックなアプローチに基づく,言語家族構造への新たなアプローチを,MDSを用いてカルテシアンフレームワークに変換する。
この統計深度に基づくアーキテクチャは、データ深度に基づく手法を堅牢な外れ値検出に利用することができ、多様な境界言語の分類を理解するのに非常に有用であり、既存の分類システムの再評価を可能にする。
他のディープベースアプローチは、教師なしクラスタリングや教師なしクラスタリングといったプロセスにも適用される。
そこで本稿では,非パラメトリックフレームワークにおける非均一言語分類システムに適用可能な手順の概要について述べる。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Comparison between parameter-efficient techniques and full fine-tuning: A case study on multilingual news article classification [4.498100922387482]
Adapters and Low-Rank Adaptation (LoRA)は、言語モデルのトレーニングをより効率的にするために設計されたパラメータ効率の良い微調整技術である。
過去の結果は,これらの手法がいくつかの分類タスクの性能を向上させることさえできることを示した。
本稿では,これらの手法が完全微調整と比較して分類性能と計算コストに与える影響について検討する。
論文 参考訳(メタデータ) (2023-08-14T17:12:43Z) - Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - Learning Mutual Fund Categorization using Natural Language Processing [0.5249805590164901]
自然言語処理(NLP)を用いて,非構造化データから分類システムを直接学習する。
分類システムを高精度に学習できることが示される。
論文 参考訳(メタデータ) (2022-07-11T15:40:18Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Leveraging Class Hierarchies with Metric-Guided Prototype Learning [5.070542698701158]
多くの分類タスクでは、ターゲットクラスのセットは階層に分類できる。
この構造はクラス間の意味的距離を誘導し、コスト行列の形で要約することができる。
本稿では,この指標を原型ネットワークの監視に組み込むことにより,階層型クラス構造をモデル化することを提案する。
論文 参考訳(メタデータ) (2020-07-06T20:22:08Z) - The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
論文 参考訳(メタデータ) (2020-05-04T16:38:54Z) - A Call for More Rigor in Unsupervised Cross-lingual Learning [76.6545568416577]
このような研究の既存の理論的根拠は、世界の多くの言語における並列データの欠如に基づいている。
並列データと豊富なモノリンガルデータのないシナリオは現実的には非現実的であると我々は主張する。
論文 参考訳(メタデータ) (2020-04-30T17:06:23Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。