論文の概要: Unravelling Interlanguage Facts via Explainable Machine Learning
- arxiv url: http://arxiv.org/abs/2208.01468v1
- Date: Tue, 2 Aug 2022 14:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:51:08.527262
- Title: Unravelling Interlanguage Facts via Explainable Machine Learning
- Title(参考訳): 説明可能な機械学習による言語間事実の解明
- Authors: Barbara Berti, Andrea Esuli, Fabrizio Sebastiani
- Abstract要約: 我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。
我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。
話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
- 参考スコア(独自算出の注目度): 10.71581852108984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Native language identification (NLI) is the task of training (via supervised
machine learning) a classifier that guesses the native language of the author
of a text. This task has been extensively researched in the last decade, and
the performance of NLI systems has steadily improved over the years. We focus
on a different facet of the NLI task, i.e., that of analysing the internals of
an NLI classifier trained by an \emph{explainable} machine learning algorithm,
in order to obtain explanations of its classification decisions, with the
ultimate goal of gaining insight into which linguistic phenomena ``give a
speaker's native language away''. We use this perspective in order to tackle
both NLI and a (much less researched) companion task, i.e., guessing whether a
text has been written by a native or a non-native speaker. Using three datasets
of different provenance (two datasets of English learners' essays and a dataset
of social media posts), we investigate which kind of linguistic traits
(lexical, morphological, syntactic, and statistical) are most effective for
solving our two tasks, namely, are most indicative of a speaker's L1. We also
present two case studies, one on Spanish and one on Italian learners of
English, in which we analyse individual linguistic traits that the classifiers
have singled out as most important for spotting these L1s. Overall, our study
shows that the use of explainable machine learning can be a valuable tool for
th
- Abstract(参考訳): ネイティブ言語識別(英語: native language identification、nli)は、テキストの著者のネイティブ言語を推測する分類器である(教師付き機械学習による)トレーニングのタスクである。
この課題は過去10年間で広範囲に研究され、長年にわたってNLIシステムの性能は着実に改善されてきた。
nliタスクの異なる側面、すなわち、機械学習アルゴリズムで訓練されたnli分類器の内部を分析することで、その分類決定の説明を得るために、言語現象が「話者の母国語を遠ざける」ことに関する洞察を得ることを最終的な目標としている。
我々は、NLIと(あまり研究されていない)相補的なタスク、すなわち、テキストがネイティブまたは非ネイティブな話者によって書かれたかどうかを推測するために、この視点を使用する。
英語学習者のエッセイのデータセットとソーシャルメディア投稿のデータセットの3つの異なるデータセットを用いて、どの言語特性(語彙的、形態学的、構文的、統計的)が、我々の2つの課題、すなわち、話者のL1の最も効果的な指標であるかを調査する。
また,2つのケーススタディ,1つはスペイン語,もう1つはイタリア語の英語学習者について,分類器がl1を同定する上で最も重要な特徴を個々に分析した。
全体としては、説明可能な機械学習の使用は、thにとって価値のあるツールであることを示している。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。