Fugu-MT 論文翻訳(概要): Consistency Analysis of ChatGPT

論文の概要: Consistency Analysis of ChatGPT

arxiv url: http://arxiv.org/abs/2303.06273v1
Date: Sat, 11 Mar 2023 01:19:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 20:06:38.289097
Title: Consistency Analysis of ChatGPT
Title（参考訳）: ChatGPTの一貫性解析
Authors: Myeongjun Jang, Thomas Lukasiewicz
Abstract要約: ChatGPTは,大規模言語モデルに基づく質問・回答対話システムである。論理的に一貫した行動に関するChatGPTの信頼性について検討する。
参考スコア（独自算出の注目度）: 54.184609286094044
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: ChatGPT, a question-and-answer dialogue system based on a large language model, has gained huge popularity since its introduction. Its positive aspects have been reported through many media platforms, and some analyses even showed that ChatGPT achieved a decent grade in professional exams, including the law, medical, and finance domains, adding extra support to the claim that AI now can assist and, even, replace humans in industrial fields. Others, however, doubt its reliability and trustworthiness. In this paper, we investigate ChatGPT's trustworthiness regarding logically consistent behaviours. Our findings suggest that, although ChatGPT seems to achieve an improved language understanding ability, it still fails to generate logically correct predictions frequently. Hence, while it is true that ChatGPT is an impressive and promising new technique, we conclude that its usage in real-world applications without thorough human inspection requires further consideration, especially for risk-sensitive areas.
Abstract（参考訳）: 大規模な言語モデルに基づいた質問と回答の対話システムであるchatgptは、導入以来、大きな人気を集めている。その肯定的な側面は、多くのメディアプラットフォームを通じて報告されており、ChatGPTが法律、医療、金融分野を含む専門的試験で適度な成績を収め、AIが産業分野の人間を補助し、置き換えることができるという主張にさらなる支持を与えている、という分析もある。しかし、その信頼性と信頼性を疑う者もいる。本稿では,ChatGPTの論理的一貫した行動に対する信頼性について検討する。以上の結果から,ChatGPTは言語理解能力の向上を図っているものの,論理的に正しい予測を頻繁に生成できないことが示唆された。従って、chatgptが印象的で有望な新しい技術であることは事実であるが、人間による徹底的な検査を伴わない実世界のアプリケーションでの使用には、特にリスクに敏感な領域において、さらなる検討が必要であると結論付ける。

関連論文リスト

Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文参考訳（メタデータ） (2025-05-30T02:39:37Z)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文参考訳（メタデータ） (2024-07-08T22:15:01Z)
How much reliable is ChatGPT's prediction on Information Extraction under Input Perturbations? [14.815409733416358]
入力摂動下でのChatGPTの頑健さを情報抽出(IE)の最も基本的な課題の一つとして評価する。自動評価と人的評価の両方を用いて、2つのNERデータセット上でChatGPTの頑健さを体系的に解析する。 1)ChatGPTは、広く知られている人や場所に関する摂動に比べ、薬物や疾患の代替品(希少物質)に弱いことが判明した。
論文参考訳（メタデータ） (2024-04-07T22:06:19Z)
Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark [4.970614891967042]
StepGameベンチマークでGPTの空間推論性能を解析した。自然言語テキストを空間的関係にマッピングする習熟度は,マルチホップ推論の限界に比例する。我々は、GPTの認知プロセスに関する洞察を提供しながら、戦略を促すチェーン・オブ・ソートとツリー・オブ・ソートを展開」。
論文参考訳（メタデータ） (2024-01-08T16:13:08Z)
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-24T19:46:04Z)
Improving Language Models Meaning Understanding and Consistency by Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-24T06:15:15Z)
TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models [19.159479032207155]
大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。 TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
論文参考訳（メタデータ） (2023-06-20T12:53:39Z)
On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (2023-02-22T11:01:20Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)
Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文参考訳（メタデータ） (2022-08-23T14:42:14Z)
Accurate, yet inconsistent? Consistency Analysis on Language Understanding Models [38.03490197822934]
一貫性とは、意味的に類似したコンテキストに対して、同じ予測を生成する能力である。本稿では,言語理解モデル(CALUM)における一貫性解析というフレームワークを提案する。
論文参考訳（メタデータ） (2021-08-15T06:25:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。