論文の概要: Testing AI performance on less frequent aspects of language reveals
insensitivity to underlying meaning
- arxiv url: http://arxiv.org/abs/2302.12313v2
- Date: Mon, 27 Feb 2023 08:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 12:19:37.071798
- Title: Testing AI performance on less frequent aspects of language reveals
insensitivity to underlying meaning
- Title(参考訳): あまり頻度の低い言語でAIのパフォーマンスをテストする
- Authors: Vittoria Dentella, Elliot Murphy, Gary Marcus and Evelina Leivada
- Abstract要約: 大規模言語モデルにおける言語知識によって言語性能が導かれるかどうかを問う。
我々は,文法判断タスクでGPT-3を起動し,より頻繁な構成に関する質問を解答する。
GPT-3はすべてのプロンプトで失敗し、しばしば高周波の単語でさえ理解の欠如を示す回答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in computational methods and big data availability have recently
translated into breakthroughs in AI applications. With successes in bottom-up
challenges partially overshadowing shortcomings, the 'human-like' performance
of Large Language Models has raised the question of how linguistic performance
is achieved by algorithms. Given systematic shortcomings in generalization
across many AI systems, in this work we ask whether linguistic performance is
indeed guided by language knowledge in Large Language Models. To this end, we
prompt GPT-3 with a grammaticality judgement task and comprehension questions
on less frequent constructions that are thus unlikely to form part of Large
Language Models' training data. These included grammatical 'illusions',
semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3
failed for every prompt but one, often offering answers that show a critical
lack of understanding even of high-frequency words used in these less frequent
grammatical constructions. The present work sheds light on the boundaries of
the alleged AI human-like linguistic competence and argues that, far from
human-like, the next-word prediction abilities of LLMs may face issues of
robustness, when pushed beyond training data.
- Abstract(参考訳): 計算手法とビッグデータ可用性の進歩は、最近AIアプリケーションのブレークスルーに変換された。
ボトムアップの課題の成功によって、大きな言語モデルの「人間的な」パフォーマンスは、アルゴリズムが言語のパフォーマンスをどのように達成するかという問題を提起している。
多くのAIシステムにまたがる一般化における体系的な欠点を考えると、この研究では、言語性能が大規模言語モデルにおける言語知識によって実際に導かれるかどうかを問う。
この目的のために,我々はGPT-3に文法判断タスクを付与し,大規模言語モデルの学習データを構成する可能性が低い低頻度な構成について質問する。
これには、文法的な「イラストレーション」、意味的な異常、複雑なネストした階層、自己埋め込みが含まれる。
GPT-3は全てのプロンプトで失敗し、しばしば、あまり頻度の低い文法構造で使われる高周波語でさえ理解の欠如を示す回答を提供する。
この研究は、AIのような言語能力の主張の境界に光を当て、LLMの次の単語予測能力は、トレーニングデータを超えた堅牢性の問題に直面するかもしれない、と論じている。
関連論文リスト
- Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Large Language Models Lack Understanding of Character Composition of Words [3.9901365062418317]
大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。
これらの課題の多くは、人間が完璧に扱える簡単なタスクでさえ、確実に実行できないことが示されています。
論文 参考訳(メタデータ) (2024-05-18T18:08:58Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。
対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。
我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文 参考訳(メタデータ) (2023-07-26T18:58:53Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。