論文の概要: Consistency Analysis of ChatGPT
- arxiv url: http://arxiv.org/abs/2303.06273v2
- Date: Mon, 23 Oct 2023 20:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 01:24:09.113515
- Title: Consistency Analysis of ChatGPT
- Title(参考訳): ChatGPTの一貫性解析
- Authors: Myeongjun Erik Jang, Thomas Lukasiewicz
- Abstract要約: 本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ChatGPT has gained a huge popularity since its introduction. Its positive
aspects have been reported through many media platforms, and some analyses even
showed that ChatGPT achieved a decent grade in professional exams, adding extra
support to the claim that AI can now assist and even replace humans in
industrial fields. Others, however, doubt its reliability and trustworthiness.
This paper investigates the trustworthiness of ChatGPT and GPT-4 regarding
logically consistent behaviour, focusing specifically on semantic consistency
and the properties of negation, symmetric, and transitive consistency. Our
findings suggest that while both models appear to show an enhanced language
understanding and reasoning ability, they still frequently fall short of
generating logically consistent predictions. We also ascertain via experiments
that prompt designing, few-shot learning and employing larger large language
models (LLMs) are unlikely to be the ultimate solution to resolve the
inconsistency issue of LLMs.
- Abstract(参考訳): ChatGPTは導入以来大きな人気を集めている。
その肯定的な側面は、多くのメディアプラットフォームを通じて報告されており、いくつかの分析では、chatgptがプロの試験でまともな成績を上げたこと、そしてaiが産業分野で人間を助け、置き換えることができるという主張に対する追加の支持が示された。
しかし、その信頼性と信頼性を疑う者もいる。
本稿では,chatgpt と gpt-4 の論理的一貫性に関する信頼性について検討し,意味的一貫性と否定,対称,推移的一貫性の特性に着目した。
両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
また,LLMの不整合を解消するためには,大規模言語モデル(LLM)を設計し,少数ショットの学習を行い,より大規模な言語モデル(LLM)を採用する実験を行うことも不可能である。
関連論文リスト
- How much reliable is ChatGPT's prediction on Information Extraction under Input Perturbations? [14.815409733416358]
入力摂動下でのChatGPTの頑健さを情報抽出(IE)の最も基本的な課題の一つとして評価する。
自動評価と人的評価の両方を用いて、2つのNERデータセット上でChatGPTの頑健さを体系的に解析する。
1)ChatGPTは、広く知られている人や場所に関する摂動に比べ、薬物や疾患の代替品(希少物質)に弱いことが判明した。
論文 参考訳(メタデータ) (2024-04-07T22:06:19Z) - Advancing Spatial Reasoning in Large Language Models: An In-Depth
Evaluation and Enhancement Using the StepGame Benchmark [4.970614891967042]
StepGameベンチマークでGPTの空間推論性能を解析した。
自然言語テキストを空間的関係にマッピングする習熟度は,マルチホップ推論の限界に比例する。
我々は、GPTの認知プロセスに関する洞察を提供しながら、戦略を促すチェーン・オブ・ソートとツリー・オブ・ソートを展開」。
論文 参考訳(メタデータ) (2024-01-08T16:13:08Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models [19.159479032207155]
大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
論文 参考訳(メタデータ) (2023-06-20T12:53:39Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Accurate, yet inconsistent? Consistency Analysis on Language
Understanding Models [38.03490197822934]
一貫性とは、意味的に類似したコンテキストに対して、同じ予測を生成する能力である。
本稿では,言語理解モデル(CALUM)における一貫性解析というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T06:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。