論文の概要: A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives
- arxiv url: http://arxiv.org/abs/2210.10434v1
- Date: Wed, 19 Oct 2022 10:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:09:47.553048
- Title: A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives
- Title(参考訳): 機械学習に基づく矛盾検出モデルに関する言語学的研究 : 経験的分析と今後の展望
- Authors: Maren Pielka, Felix Rode, Lisa Pucknat, Tobias Deu{\ss}er, Rafet Sifa
- Abstract要約: 本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
- 参考スコア(独自算出の注目度): 0.34998703934432673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze two Natural Language Inference data sets with respect to their
linguistic features. The goal is to identify those syntactic and semantic
properties that are particularly hard to comprehend for a machine learning
model. To this end, we also investigate the differences between a
crowd-sourced, machine-translated data set (SNLI) and a collection of text
pairs from internet sources. Our main findings are, that the model has
difficulty recognizing the semantic importance of prepositions and verbs,
emphasizing the importance of linguistically aware pre-training tasks.
Furthermore, it often does not comprehend antonyms and homonyms, especially if
those are depending on the context. Incomplete sentences are another problem,
as well as longer paragraphs and rare words or phrases. The study shows that
automated language understanding requires a more informed approach, utilizing
as much external knowledge as possible throughout the training process.
- Abstract(参考訳): 2つの自然言語推論データセットを言語的特徴に関して解析する。
目標は、機械学習モデルを理解するのが特に難しい構文的および意味的特性を特定することです。
この目的のために,クラウドソーシングされた機械翻訳データセット(SNLI)とインターネットソースからのテキストペアの集合の違いについても検討する。
本研究の目的は,前置詞と動詞の意味的重要性の認識が困難であり,言語的に認識される前訓練課題の重要性を強調することである。
さらに、特にそれらが文脈に依存する場合、Antonyms や homonyms を理解できないことが多い。
不完全文は、より長い段落や稀な単語や句と同様に別の問題である。
この研究は、自動言語理解には、トレーニングプロセスを通じて可能な限り多くの外部知識を活用する、より情報的なアプローチが必要であることを示している。
関連論文リスト
- Finding Structure in Language Models [3.882018118763685]
この論文は、言語モデルが人間のものと似た文法構造を深く理解しているかどうかに関するものである。
我々は,大規模言語モデルの複雑な性質の理解を深める新しい解釈可能性技術を開発する。
論文 参考訳(メタデータ) (2024-11-25T14:37:24Z) - Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Reframing linguistic bootstrapping as joint inference using visually-grounded grammar induction models [31.006803764376475]
意味的・統語的ブートストラッピング・ポジトリ(Semantic and Syntactic bootstrapping posit)とは、子供が特定の言語領域についての事前の知識、例えば構文的関係(syntactic relations)を使い、後に新しい単語の意味などの他の知識を取得する手助けをするものである。
ここでは、両者が、言語習得のためのより一般的な学習戦略である共同学習に固執していると論じる。
一連の視覚的文法帰納モデルを用いて,構文と意味が同時に学習された場合に,構文的および意味的ブートストラップ効果が最強であることが実証された。
論文 参考訳(メタデータ) (2024-06-17T18:01:06Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。
我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。
話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文 参考訳(メタデータ) (2022-08-02T14:05:15Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Understanding and Enhancing the Use of Context for Machine Translation [2.367786892039871]
この論文は、ニューラルモデルにおけるコンテキストの特定の可能性を理解し、それらから恩恵を受ける拡張モデルを設計することに焦点を当てている。
ソース言語からターゲット言語に翻訳するには、神経モデルは与えられたコンテキストにおける構成語の意味を理解する必要があります。
NLP分野を進めるためには、コンテキストの役割と学習モデルに対するデータの影響をより深く検討することが不可欠です。
論文 参考訳(メタデータ) (2021-02-20T20:19:27Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。