Fugu-MT 論文翻訳(概要): Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning

論文の概要: Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning

arxiv url: http://arxiv.org/abs/2302.12313v2
Date: Mon, 27 Feb 2023 08:24:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 12:19:37.071798
Title: Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning
Title（参考訳）: あまり頻度の低い言語でAIのパフォーマンスをテストする
Authors: Vittoria Dentella, Elliot Murphy, Gary Marcus and Evelina Leivada
Abstract要約: 大規模言語モデルにおける言語知識によって言語性能が導かれるかどうかを問う。我々は,文法判断タスクでGPT-3を起動し,より頻繁な構成に関する質問を解答する。 GPT-3はすべてのプロンプトで失敗し、しばしば高周波の単語でさえ理解の欠如を示す回答を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in computational methods and big data availability have recently translated into breakthroughs in AI applications. With successes in bottom-up challenges partially overshadowing shortcomings, the 'human-like' performance of Large Language Models has raised the question of how linguistic performance is achieved by algorithms. Given systematic shortcomings in generalization across many AI systems, in this work we ask whether linguistic performance is indeed guided by language knowledge in Large Language Models. To this end, we prompt GPT-3 with a grammaticality judgement task and comprehension questions on less frequent constructions that are thus unlikely to form part of Large Language Models' training data. These included grammatical 'illusions', semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3 failed for every prompt but one, often offering answers that show a critical lack of understanding even of high-frequency words used in these less frequent grammatical constructions. The present work sheds light on the boundaries of the alleged AI human-like linguistic competence and argues that, far from human-like, the next-word prediction abilities of LLMs may face issues of robustness, when pushed beyond training data.
Abstract（参考訳）: 計算手法とビッグデータ可用性の進歩は、最近AIアプリケーションのブレークスルーに変換された。ボトムアップの課題の成功によって、大きな言語モデルの「人間的な」パフォーマンスは、アルゴリズムが言語のパフォーマンスをどのように達成するかという問題を提起している。多くのAIシステムにまたがる一般化における体系的な欠点を考えると、この研究では、言語性能が大規模言語モデルにおける言語知識によって実際に導かれるかどうかを問う。この目的のために,我々はGPT-3に文法判断タスクを付与し,大規模言語モデルの学習データを構成する可能性が低い低頻度な構成について質問する。これには、文法的な「イラストレーション」、意味的な異常、複雑なネストした階層、自己埋め込みが含まれる。 GPT-3は全てのプロンプトで失敗し、しばしば、あまり頻度の低い文法構造で使われる高周波語でさえ理解の欠如を示す回答を提供する。この研究は、AIのような言語能力の主張の境界に光を当て、LLMの次の単語予測能力は、トレーニングデータを超えた堅牢性の問題に直面するかもしれない、と論じている。

関連論文リスト

A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文参考訳（メタデータ） (2025-05-13T22:18:51Z)
Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文参考訳（メタデータ） (2025-03-25T01:47:13Z)
Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。 GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文参考訳（メタデータ） (2024-10-09T03:53:26Z)
Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳（メタデータ） (2024-07-02T14:02:53Z)
Large Language Models Lack Understanding of Character Composition of Words [3.9901365062418317]
大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。これらの課題の多くは、人間が完璧に扱える簡単なタスクでさえ、確実に実行できないことが示されています。
論文参考訳（メタデータ） (2024-05-18T18:08:58Z)
SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文参考訳（メタデータ） (2023-10-27T06:48:48Z)
A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文参考訳（メタデータ） (2023-07-26T18:58:53Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文参考訳（メタデータ） (2022-04-26T23:42:22Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
My Teacher Thinks The World Is Flat! Interpreting Automatic Essay Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文参考訳（メタデータ） (2020-12-27T06:19:20Z)
Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文参考訳（メタデータ） (2020-04-07T01:06:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。