Fugu-MT 論文翻訳(概要): ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds

論文の概要: ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds

arxiv url: http://arxiv.org/abs/2305.14785v1
Date: Wed, 24 May 2023 06:41:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 19:01:33.573815
Title: ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds
Title（参考訳）: ChatGPTと単純な言語推論:盲点と盲点
Authors: Victoria Basmov, Yoav Goldberg, Reut Tsarfaty
Abstract要約: 本稿では,人間にとって容易な単純な推論タスクに焦点をあてる。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。以上の結果から,モデルがこのような推論に苦慮し,中程度の精度で精度が低いことが示唆された。
参考スコア（独自算出の注目度）: 51.220650412095665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper sheds light on the limitations of ChatGPT's understanding capabilities, focusing on simple inference tasks that are typically easy for humans but appear to be challenging for the model. Specifically, we target (i) grammatically-specified entailments, (ii) premises with evidential adverbs of uncertainty, and (iii) monotonicity entailments. We present expert-designed evaluation sets for these inference types and conduct experiments in a zero-shot setup. Our results show that the model struggles with these types of inferences, exhibiting moderate to low accuracy. Moreover, while ChatGPT demonstrates knowledge of the underlying linguistic concepts when prompted directly, it often fails to incorporate this knowledge to make correct inferences. Even more strikingly, further experiments show that embedding the premise under presupposition triggers or non-factive verbs causes the model to predict entailment more frequently {regardless} of the correct semantic label. Overall these results suggest that, despite GPT's celebrated language understanding capacity, ChatGPT has blindspots with respect to certain types of entailment, and that certain entailment-cancelling features act as ``blinds'' overshadowing the semantics of the embedded premise. Our analyses emphasize the need for further research into the linguistic comprehension and reasoning capabilities of LLMs, in order to improve their reliability, and establish their trustworthiness for real-world applications.
Abstract（参考訳）: 本稿では、ChatGPTの理解能力の限界に光を当て、人間にとって簡単な推論タスクに焦点をあてる。特にターゲットは (i)文法的に特定された内容 (ii)不確かさを立証する施設、及び (三)単調性に関するもの我々は,これらの推論型に対して専門家が設計した評価セットを提示し,ゼロショットで実験を行う。以上の結果から,モデルがこのような推論に苦慮していることが示唆された。さらに、ChatGPTは直接的に誘導される言語概念の知識を示すが、正しい推論を行うためにこの知識を組み込むことがしばしば失敗する。さらに驚くべきことに、さらなる実験により、前提条件を前置詞または非正反対動詞に埋め込むことで、モデルが正しい意味ラベルのより頻繁な『無関係』を予測できることが示されている。これらの結果は, GPT の言語理解能力が有望であるにもかかわらず,ChatGPT は特定のエンタテインメントに対して盲点を有しており,特定のエンタテインメント・キャンセリング機能は,組込み前提のセマンティクスを超越した 'blinds'' として機能することを示唆している。本分析では,LLMの言語理解と推論能力に関するさらなる研究の必要性を強調し,信頼性の向上と実世界のアプリケーションに対する信頼性の確立を図る。

関連論文リスト

Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文参考訳（メタデータ） (2025-03-25T01:47:13Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Unveiling the Capabilities of Large Language Models in Detecting Offensive Language with Annotation Disagreement [22.992484902761994]
本研究では,攻撃言語検出における多言語モデル(LLM)の性能を系統的に評価する。本研究では,二項分類の精度を分析し,モデル信頼度と人的不一致度の関係を検証し,不一致サンプルがモデル決定にどう影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:14:26Z)
Assessing Language Comprehension in Large Language Models Using Construction Grammar [3.0906699069248806]
構築文法(CxG)は、構築(Cxns)として知られる言語要素によって捉えられる意味に関する洞察を提供する。これらのデータセットは、事前学習データには現れないような例を含むように慎重に構築されているが、人間が理解するのは直感的で容易である。我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
論文参考訳（メタデータ） (2025-01-08T18:15:10Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文参考訳（メタデータ） (2024-10-03T08:44:17Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Explanation-aware Soft Ensemble Empowers Large Language Model In-context Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文参考訳（メタデータ） (2023-11-13T06:13:38Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。 LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文参考訳（メタデータ） (2023-05-01T18:22:10Z)
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。 2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文参考訳（メタデータ） (2022-10-26T19:04:23Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。