Fugu-MT 論文翻訳(概要): LIEDER: Linguistically-Informed Evaluation for Discourse Entity Recognition

論文の概要: LIEDER: Linguistically-Informed Evaluation for Discourse Entity Recognition

arxiv url: http://arxiv.org/abs/2403.06301v2
Date: Sat, 10 Aug 2024 07:54:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 23:48:12.746679
Title: LIEDER: Linguistically-Informed Evaluation for Discourse Entity Recognition
Title（参考訳）: LIEDER:言論エンティティ認識のための言語的インフォームド評価
Authors: Xiaomeng Zhu, Robert Frank,
Abstract要約: 現状の大規模言語モデルでは, 存在, 独自性, 複数性, 新規性に敏感であることを示す。我々は,現在最先端の大規模言語モデルが,新規性以外のすべての特性に対して感受性を示す証拠を見いだし,人間レベルの言語理解能力にはまだ達していないことを示す。
参考スコア（独自算出の注目度）: 2.208215059387107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Discourse Entity (DE) recognition is the task of identifying novel and known entities introduced within a text. While previous work has found that large language models have basic, if imperfect, DE recognition abilities (Schuster and Linzen, 2022), it remains largely unassessed which of the fundamental semantic properties that govern the introduction and subsequent reference to DEs they have knowledge of. We propose the Linguistically-Informed Evaluation for Discourse Entity Recognition (LIEDER) dataset that allows for a detailed examination of language models' knowledge of four crucial semantic properties: existence, uniqueness, plurality, and novelty. We find evidence that state-of-the-art large language models exhibit sensitivity to all of these properties except novelty, which demonstrates that they have yet to reach human-level language understanding abilities.
Abstract（参考訳）: 談話エンティティ(英: Discourse Entity、DE)とは、テキスト内で導入された新規で既知のエンティティを識別するタスクである。以前の研究では、大きな言語モデルには基礎があるが、もし不完全であるなら、De認識能力(SchusterとLinzen、2022年)は評価されていない。本稿では,言語モデルが持つ4つの重要な意味的特性(存在,独特性,複数性,新規性)について,言語モデルが持つ知識を詳細に調べることのできる,言語学的インフォームド・アセスメント・フォー・ディスコース・エンティティ・認識(LIEDER)データセットを提案する。我々は,現在最先端の大規模言語モデルが,新規性以外のすべての特性に対して感受性を示す証拠を見いだし,人間レベルの言語理解能力にはまだ達していないことを示す。

関連論文リスト

Large Language Models as Neurolinguistic Subjects: Discrepancy in Performance and Competence for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文参考訳（メタデータ） (2024-11-12T04:16:44Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文参考訳（メタデータ） (2024-07-11T18:06:01Z)
Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文参考訳（メタデータ） (2024-04-29T17:58:36Z)
DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文参考訳（メタデータ） (2023-06-24T21:05:02Z)
Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文参考訳（メタデータ） (2022-10-14T02:35:19Z)
A Property Induction Framework for Neural Language Models [8.08493736237816]
本稿では,ニューラルネットワーク言語モデル(LM)を用いて特性誘導を行うフレームワークを提案する。 LMは,カテゴリメンバシップに基づいて,新規プロパティを一般化する帰納的嗜好を示す。
論文参考訳（メタデータ） (2022-05-13T22:05:49Z)
Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文参考訳（メタデータ） (2022-04-13T10:32:03Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文参考訳（メタデータ） (2021-10-15T21:58:03Z)
On the Language-specificity of Multilingual BERT and the Impact of Fine-tuning [7.493779672689531]
multilingual BERT (mBERT) が獲得した知識は、言語固有のものと言語ニュートラルな2つのコンポーネントを持っている。本稿では,2つのタスクの微調整の文脈において,それらの関係を解析する。
論文参考訳（メタデータ） (2021-09-14T19:28:31Z)
A Closer Look at Linguistic Knowledge in Masked Language Models: The Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文参考訳（メタデータ） (2020-11-02T13:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。