Fugu-MT 論文翻訳(概要): ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales?

論文の概要: ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales?

arxiv url: http://arxiv.org/abs/2403.17368v1
Date: Tue, 26 Mar 2024 04:07:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 16:45:50.116694
Title: ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales?
Title（参考訳）: ChatGPTは、人間のように自然言語による説明の質を高める:しかし、どのスケールで?
Authors: Fan Huang, Haewoon Kwak, Kunwoo Park, Jisun An,
Abstract要約: 本研究では,ChatGPTと人的評価のアライメントについて,複数の尺度で検討する。 3つのNLEデータセットから300のデータインスタンスをサンプリングし、900人のアノテーションを収集します。以上の結果から,ChatGPTはより粗いスケールで人間とよく一致していることがわかった。
参考スコア（独自算出の注目度）: 7.307538454513983
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As AI becomes more integral in our lives, the need for transparency and responsibility grows. While natural language explanations (NLEs) are vital for clarifying the reasoning behind AI decisions, evaluating them through human judgments is complex and resource-intensive due to subjectivity and the need for fine-grained ratings. This study explores the alignment between ChatGPT and human assessments across multiple scales (i.e., binary, ternary, and 7-Likert scale). We sample 300 data instances from three NLE datasets and collect 900 human annotations for both informativeness and clarity scores as the text quality measurement. We further conduct paired comparison experiments under different ranges of subjectivity scores, where the baseline comes from 8,346 human annotations. Our results show that ChatGPT aligns better with humans in more coarse-grained scales. Also, paired comparisons and dynamic prompting (i.e., providing semantically similar examples in the prompt) improve the alignment. This research advances our understanding of large language models' capabilities to assess the text explanation quality in different configurations for responsible AI development.
Abstract（参考訳）: AIが私たちの生活にますます不可欠なものになっていくと、透明性と責任の必要性が増す。自然言語の説明(NLE)は、AI決定の背後にある理由を明らかにする上で不可欠であるが、主観性と詳細な評価の必要性のため、人間の判断による評価は複雑でリソース集約的である。本研究では,ChatGPTと人的評価(二分数,三分数,七分数)のアライメントについて検討した。 3つのNLEデータセットから300のデータインスタンスをサンプリングし、テキストの品質測定として、情報度と明瞭度スコアの両方に900人のアノテーションを収集する。さらに,8,346人のアノテーションの基準となる主観性スコアの異なる範囲でペア比較実験を行った。以上の結果から,ChatGPTはより粗いスケールで人間とよく一致していることがわかった。また、ペア比較と動的プロンプト(すなわちプロンプトに意味的に類似した例を提供する)はアライメントを改善する。本研究は,大規模言語モデルの能力の理解を深め,AI開発に責任を負うための異なる構成のテキスト説明品質を評価する。

関連論文リスト

What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文参考訳（メタデータ） (2025-06-07T23:19:27Z)
Analyzing Feedback Mechanisms in AI-Generated MCQs: Insights into Readability, Lexical Properties, and Levels of Challenge [0.0]
本研究は,Google の Gemini 1.5-flash テキストモデルが生成するフィードバックの言語的および構造的特性を,コンピュータサイエンスのマルチチョイス質問(MCQ)に適用するものである。長,可読性スコア(フレッシュ・キンケイド級),語彙の豊かさ,語彙密度などの主要な言語指標を算出し,検討した。この結果から, 多様な教育的文脈におけるAI生成フィードバックの動的適応を実証し, フィードバックトーンと質問難易度の間に有意な相互作用効果が認められた。
論文参考訳（メタデータ） (2025-04-19T09:20:52Z)
Turing Representational Similarity Analysis (RSA): A Flexible Method for Measuring Alignment Between Human and Artificial Intelligence [0.62914438169038]
我々は,AIと人間間のアライメントを定量化するために,ペアの類似度評価を用いたチューリング表現類似度分析(RSA)を開発した。我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文参考訳（メタデータ） (2024-11-30T20:24:52Z)
Trying to be human: Linguistic traces of stochastic empathy in language models [0.2638512174804417]
大規模言語モデル(LLM)は、コンピュータ生成コンテンツの質向上を支える重要な要因である。私たちの研究は、2つの重要な要因が人間とAIの人種にどのように貢献するかをテストする。
論文参考訳（メタデータ） (2024-10-02T15:46:40Z)
Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文参考訳（メタデータ） (2024-09-29T04:31:45Z)
Strong and weak alignment of large language models with human values [1.6590638305972631]
AI(Artificial Intelligent)システムの負の影響を最小限に抑えるには、人間の価値観に合わせる必要がある。これは、大きな言語モデル(LLM)のようなAIシステムにおいて、人間の価値が浮かび上がるリスクを示す状況を認識するために必要である、と我々は主張する。そこで我々は,ジョン・サールの有名な提案を拡張して,「単語遷移辞書付き中国語室」と呼ぶ新しい思考実験を提案する。
論文参考訳（メタデータ） (2024-08-05T11:27:51Z)
From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI [0.0]
本研究では,大規模言語モデル(LLM)の有効性について検討した。モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
論文参考訳（メタデータ） (2024-07-04T09:38:49Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Retrieval-based Disentangled Representation Learning with Natural Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文参考訳（メタデータ） (2022-12-15T10:20:42Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文参考訳（メタデータ） (2022-04-29T15:06:58Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。