論文の概要: Minor changes make a difference: a case study on the consistency of
UD-based dependency parsers
- arxiv url: http://arxiv.org/abs/2111.15413v1
- Date: Tue, 30 Nov 2021 14:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 20:20:49.857023
- Title: Minor changes make a difference: a case study on the consistency of
UD-based dependency parsers
- Title(参考訳): マイナーチェンジが違いをもたらす:UDベースの依存性パーサの整合性に関するケーススタディ
- Authors: Dmytro Kalpakchi and Johan Boye
- Abstract要約: 本稿では,機械学習のバイアスが依存木に与える影響について検討する。
入力に顕著な変化が現れると、出力に大きな違いが生じる可能性がある。
データの増大は問題を改善することができると提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many downstream applications are using dependency trees, and are thus relying
on dependency parsers producing correct, or at least consistent, output.
However, dependency parsers are trained using machine learning, and are
therefore susceptible to unwanted inconsistencies due to biases in the training
data. This paper explores the effects of such biases in four languages -
English, Swedish, Russian, and Ukrainian - though an experiment where we study
the effect of replacing numerals in sentences. We show that such seemingly
insignificant changes in the input can cause large differences in the output,
and suggest that data augmentation can remedy the problems.
- Abstract(参考訳): 多くのダウンストリームアプリケーションは依存性ツリーを使用しており、正しい、あるいは少なくとも一貫性のある出力を生成する依存関係パーサに依存している。
しかし、依存関係パーサは機械学習を使って訓練されるため、トレーニングデータにバイアスがあるため、望ましくない不整合に影響を受けやすい。
本稿では, 日本語, スウェーデン語, ロシア語, ウクライナ語におけるこれらのバイアスの影響について検討するが, 文中の数字を置き換える効果について検討する。
このような不明瞭な入力の変化は出力に大きな差をもたらす可能性があることを示し、データ拡張が問題を改善することを示唆する。
関連論文リスト
- Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? [17.011882550422452]
命令データの性質がモデル出力に影響を及ぼすかどうかは不明である。
翻訳されたテストセットがそのようなニュアンスをキャプチャできるかどうかは疑わしい。
ネイティブまたはジェネレーションベンチマークでは、ネイティブとトランスポートされたインストラクションデータの間に顕著な違いがあることが示されている。
論文 参考訳(メタデータ) (2024-06-18T17:43:47Z) - Understanding the effects of language-specific class imbalance in
multilingual fine-tuning [0.0]
変換器をベースとしたLarge Language Model (LLM) を不均衡なデータセットで微調整すると性能が低下することを示す。
各言語ごとにクラス重みを別々に計算することで、従来のクラス重み付けアプローチを不均衡に修正する。
論文 参考訳(メタデータ) (2024-02-20T13:59:12Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Evaluating Transformer's Ability to Learn Mildly Context-Sensitive
Languages [6.227678387562755]
近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。
様々な複雑さの文脈に敏感な言語を学習するトランスフォーマーの能力をテストする。
分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
論文 参考訳(メタデータ) (2023-09-02T08:17:29Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - Sentiment Analysis Based on Deep Learning: A Comparative Study [69.09570726777817]
世論の研究は我々に貴重な情報を提供することができる。
感情分析の効率性と正確性は、自然言語処理で直面する課題によって妨げられている。
本稿では、感情分析の問題を解決するためにディープラーニングを用いた最新の研究をレビューする。
論文 参考訳(メタデータ) (2020-06-05T16:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。