論文の概要: Constructions Are So Difficult That Even Large Language Models Get Them Right for the Wrong Reasons
- arxiv url: http://arxiv.org/abs/2403.17760v2
- Date: Wed, 29 May 2024 23:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:35:08.115478
- Title: Constructions Are So Difficult That Even Large Language Models Get Them Right for the Wrong Reasons
- Title(参考訳): 巨大な言語モデルでさえ、間違った理由を正すのが難しい
- Authors: Shijia Zhou, Leonie Weissweiler, Taiqi He, Hinrich Schütze, David R. Mortensen, Lori Levin,
- Abstract要約: 語彙重なりが大きいNLIのための小さな課題データセットを導入する。
GPT-4 と Llama 2 は強いバイアスで失敗する。
計算言語学の観点から、曲面特徴によって区別できない3種類の形容詞を持つ構成群を同定する。
- 参考スコア(独自算出の注目度): 43.708431369382176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we make a contribution that can be understood from two perspectives: from an NLP perspective, we introduce a small challenge dataset for NLI with large lexical overlap, which minimises the possibility of models discerning entailment solely based on token distinctions, and show that GPT-4 and Llama 2 fail it with strong bias. We then create further challenging sub-tasks in an effort to explain this failure. From a Computational Linguistics perspective, we identify a group of constructions with three classes of adjectives which cannot be distinguished by surface features. This enables us to probe for LLM's understanding of these constructions in various ways, and we find that they fail in a variety of ways to distinguish between them, suggesting that they don't adequately represent their meaning or capture the lexical properties of phrasal heads.
- Abstract(参考訳): 本稿では,NLPの観点から,トークンの区別のみに基づいて包括性を識別するモデルを最小化し,GPT-4とLlama 2が強いバイアスで失敗する可能性を示す,大きな語彙重なりを持つNLIのための小さな挑戦データセットを提案する。
そして、この失敗を説明するために、さらに挑戦的なサブタスクを作成します。
計算言語学の観点から、曲面特徴によって区別できない3種類の形容詞を持つ構成群を同定する。
これにより, LLM のこれらの構造に対する理解を様々な方法で探究することが可能となり, 両者の区別に様々な方法で失敗し, それらの意味を適切に表現したり, 語彙的特徴を捉えたりすることができないことが示唆された。
関連論文リスト
- Transforming Hidden States into Binary Semantic Features [0.0]
我々は再び意味の分布論を採用することを提案する。
独立成分分析を用いて、その難易度を克服し、大きな言語モデルがそれらの隠れ状態における意味的特徴を表現することを示す。
論文 参考訳(メタデータ) (2024-09-29T22:23:52Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - Large Language Models Lack Understanding of Character Composition of Words [3.9901365062418317]
大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。
これらの課題の多くは、人間が完璧に扱える簡単なタスクでさえ、確実に実行できないことが示されています。
論文 参考訳(メタデータ) (2024-05-18T18:08:58Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。