論文の概要: Hybrid Human-LLM Corpus Construction and LLM Evaluation for Rare
Linguistic Phenomena
- arxiv url: http://arxiv.org/abs/2403.06965v1
- Date: Mon, 11 Mar 2024 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:45:55.920281
- Title: Hybrid Human-LLM Corpus Construction and LLM Evaluation for Rare
Linguistic Phenomena
- Title(参考訳): 希少言語現象に対する人間-llmコーパスのハイブリッド構築とllm評価
- Authors: Leonie Weissweiler, Abdullatif K\"oksal, Hinrich Sch\"utze
- Abstract要約: 我々は,NLPによる注釈付きテキストの新しいパイプラインを開発した。
アノテーションのコストを大幅に削減するために,依存性解析と GPT-3.5 をどのように利用できるかを示す。
GPT, Gemini, Llama2 および Mistral のモデルを用いて, 起因運動構成の理解について検討した。
- 参考スコア(独自算出の注目度): 10.46170616400016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Argument Structure Constructions (ASCs) are one of the most well-studied
construction groups, providing a unique opportunity to demonstrate the
usefulness of Construction Grammar (CxG). For example, the caused-motion
construction (CMC, ``She sneezed the foam off her cappuccino'') demonstrates
that constructions must carry meaning, otherwise the fact that ``sneeze'' in
this context causes movement cannot be explained. We form the hypothesis that
this remains challenging even for state-of-the-art Large Language Models
(LLMs), for which we devise a test based on substituting the verb with a
prototypical motion verb. To be able to perform this test at statistically
significant scale, in the absence of adequate CxG corpora, we develop a novel
pipeline of NLP-assisted collection of linguistically annotated text. We show
how dependency parsing and GPT-3.5 can be used to significantly reduce
annotation cost and thus enable the annotation of rare phenomena at scale. We
then evaluate GPT, Gemini, Llama2 and Mistral models for their understanding of
the CMC using the newly collected corpus. We find that all models struggle with
understanding the motion component that the CMC adds to a sentence.
- Abstract(参考訳): argument Structure Constructions (ASCs) は最もよく研究されている建設グループの一つであり、コンストラクション文法(CxG)の有用性を示すユニークな機会を提供する。
例えば、引き起こされた運動構造(cmc, ‘she sneezed the foam off her cappuccino'')は、この文脈で 'sneeze' が運動を引き起こすという事実がなければ、構造が意味を持つ必要があることを示している。
我々は,現在最先端のLarge Language Models (LLMs) においても,動詞を原型的動作動詞に置き換えることに基づくテストが可能であるという仮説を定めている。
この検査を統計的に有意な規模で行うためには,適切なCxGコーパスがない場合に,言語学的に注釈付きテキストをNLPで支援する新たなパイプラインを開発する。
本稿では,依存性解析と GPT-3.5 を用いてアノテーションのコストを大幅に削減し,希少な現象のアノテーションを大規模に利用できることを示す。
新たに収集したコーパスを用いて, GPT, Gemini, Llama2 および Mistral モデルの評価を行った。
全てのモデルは、CMCが文に追加する動き成分を理解するのに苦労している。
関連論文リスト
- From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Toward a Theory of Causation for Interpreting Neural Code Models [49.906221295459275]
本稿では,ニューラルコードモデル(NCM)に特化したポストホック解釈法である$do_code$を紹介する。
$do_code$は、言語指向の説明を可能にする因果推論に基づいている。
その結果,NCMはコード構文の変化に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-02-07T22:56:58Z) - The Better Your Syntax, the Better Your Semantics? Probing Pretrained
Language Models for the English Comparative Correlative [7.03497683558609]
Construction Grammar (CxG) は、文法と意味論の関連性を強調する認知言語学のパラダイムである。
我々は、最もよく研究されている構成のうちの1つ、英語比較相関(CC)を分類し、理解する能力について調査する。
以上の結果から,PLMは3つともCCの構造を認識することができるが,その意味は用いていないことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-24T13:01:24Z) - Masked Part-Of-Speech Model: Does Modeling Long Context Help
Unsupervised POS-tagging? [94.68962249604749]
フレキシブルな依存性モデリングを容易にするために,MPoSM(Masked Part-of-Speech Model)を提案する。
MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行うことができる。
英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。
論文 参考訳(メタデータ) (2022-06-30T01:43:05Z) - Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on
a Syntactic Task [70.29624135819884]
目的の構文テンプレート上で,BERTが語彙非依存の主観値数アグリーメント(NA)を実行できる範囲について検討した。
名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。
論文 参考訳(メタデータ) (2022-04-14T11:33:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。