論文の概要: Consistency Analysis of ChatGPT
- arxiv url: http://arxiv.org/abs/2303.06273v1
- Date: Sat, 11 Mar 2023 01:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 20:06:38.289097
- Title: Consistency Analysis of ChatGPT
- Title(参考訳): ChatGPTの一貫性解析
- Authors: Myeongjun Jang, Thomas Lukasiewicz
- Abstract要約: ChatGPTは,大規模言語モデルに基づく質問・回答対話システムである。
論理的に一貫した行動に関するChatGPTの信頼性について検討する。
- 参考スコア(独自算出の注目度): 54.184609286094044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ChatGPT, a question-and-answer dialogue system based on a large language
model, has gained huge popularity since its introduction. Its positive aspects
have been reported through many media platforms, and some analyses even showed
that ChatGPT achieved a decent grade in professional exams, including the law,
medical, and finance domains, adding extra support to the claim that AI now can
assist and, even, replace humans in industrial fields. Others, however, doubt
its reliability and trustworthiness. In this paper, we investigate ChatGPT's
trustworthiness regarding logically consistent behaviours. Our findings suggest
that, although ChatGPT seems to achieve an improved language understanding
ability, it still fails to generate logically correct predictions frequently.
Hence, while it is true that ChatGPT is an impressive and promising new
technique, we conclude that its usage in real-world applications without
thorough human inspection requires further consideration, especially for
risk-sensitive areas.
- Abstract(参考訳): 大規模な言語モデルに基づいた質問と回答の対話システムであるchatgptは、導入以来、大きな人気を集めている。
その肯定的な側面は、多くのメディアプラットフォームを通じて報告されており、ChatGPTが法律、医療、金融分野を含む専門的試験で適度な成績を収め、AIが産業分野の人間を補助し、置き換えることができるという主張にさらなる支持を与えている、という分析もある。
しかし、その信頼性と信頼性を疑う者もいる。
本稿では,ChatGPTの論理的一貫した行動に対する信頼性について検討する。
以上の結果から,ChatGPTは言語理解能力の向上を図っているものの,論理的に正しい予測を頻繁に生成できないことが示唆された。
従って、chatgptが印象的で有望な新しい技術であることは事実であるが、人間による徹底的な検査を伴わない実世界のアプリケーションでの使用には、特にリスクに敏感な領域において、さらなる検討が必要であると結論付ける。
関連論文リスト
- How much reliable is ChatGPT's prediction on Information Extraction under Input Perturbations? [14.815409733416358]
入力摂動下でのChatGPTの頑健さを情報抽出(IE)の最も基本的な課題の一つとして評価する。
自動評価と人的評価の両方を用いて、2つのNERデータセット上でChatGPTの頑健さを体系的に解析する。
1)ChatGPTは、広く知られている人や場所に関する摂動に比べ、薬物や疾患の代替品(希少物質)に弱いことが判明した。
論文 参考訳(メタデータ) (2024-04-07T22:06:19Z) - Advancing Spatial Reasoning in Large Language Models: An In-Depth
Evaluation and Enhancement Using the StepGame Benchmark [4.970614891967042]
StepGameベンチマークでGPTの空間推論性能を解析した。
自然言語テキストを空間的関係にマッピングする習熟度は,マルチホップ推論の限界に比例する。
我々は、GPTの認知プロセスに関する洞察を提供しながら、戦略を促すチェーン・オブ・ソートとツリー・オブ・ソートを展開」。
論文 参考訳(メタデータ) (2024-01-08T16:13:08Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models [19.159479032207155]
大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
論文 参考訳(メタデータ) (2023-06-20T12:53:39Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Accurate, yet inconsistent? Consistency Analysis on Language
Understanding Models [38.03490197822934]
一貫性とは、意味的に類似したコンテキストに対して、同じ予測を生成する能力である。
本稿では,言語理解モデル(CALUM)における一貫性解析というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T06:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。