論文の概要: Beyond Turing Test: Can GPT-4 Sway Experts' Decisions?
- arxiv url: http://arxiv.org/abs/2409.16710v1
- Date: Wed, 25 Sep 2024 07:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:00:58.087243
- Title: Beyond Turing Test: Can GPT-4 Sway Experts' Decisions?
- Title(参考訳): チューリングテストを超えて: GPT-4は専門家の判断を下せるか?
- Authors: Takehiro Takayanagi, Hiroya Takamura, Kiyoshi Izumi, Chung-Chi Chen,
- Abstract要約: 本稿では,生成したテキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。
以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。
その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。
- 参考スコア(独自算出の注目度): 14.964922012236498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the post-Turing era, evaluating large language models (LLMs) involves assessing generated text based on readers' reactions rather than merely its indistinguishability from human-produced content. This paper explores how LLM-generated text impacts readers' decisions, focusing on both amateur and expert audiences. Our findings indicate that GPT-4 can generate persuasive analyses affecting the decisions of both amateurs and professionals. Furthermore, we evaluate the generated text from the aspects of grammar, convincingness, logical coherence, and usefulness. The results highlight a high correlation between real-world evaluation through audience reactions and the current multi-dimensional evaluators commonly used for generative models. Overall, this paper shows the potential and risk of using generated text to sway human decisions and also points out a new direction for evaluating generated text, i.e., leveraging the reactions and decisions of readers. We release our dataset to assist future research.
- Abstract(参考訳): 戦後、大規模言語モデル (LLM) の評価には、人為的コンテンツと区別できないだけでなく、読者の反応に基づいて生成されたテキストを評価することが含まれる。
本稿では,LLM生成テキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。
以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。
さらに, 文法, 説得性, 論理コヒーレンス, 有用性の両面から, 生成したテキストを評価する。
その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。
本稿は, 人的判断を刺激するために生成テキストを使用する可能性とリスクを示すとともに, 生成テキストを評価するための新たな方向性, すなわち, 読者の反応と判断を活用することの可能性を指摘する。
将来の研究を支援するためにデータセットをリリースします。
関連論文リスト
- Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models [1.565361244756411]
本稿では,大規模言語モデル(LLM)を用いて読解項目の生成と評価を行う。
我々は人的・自動的な評価のためのプロトコルを開発した。
以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。
論文 参考訳(メタデータ) (2024-04-11T13:11:21Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - When Automated Assessment Meets Automated Content Generation: Examining
Text Quality in the Era of GPTs [5.952677937197871]
我々は、人間のコンテンツに基づいてトレーニングされたMLベースのスコアリングモデルが、人間が生成したコンテンツとGPTの質をどのように評価するかを経験的に評価する。
ベンチマーク分析の結果,トランスフォーマー事前学習言語モデル(PLM)は,CNN/RNNや特徴ベースML手法と比較して,人間のエッセイ品質をより正確に評価できることがわかった。
論文 参考訳(メタデータ) (2023-09-25T19:32:18Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - REDAffectiveLM: Leveraging Affect Enriched Embedding and
Transformer-based Neural Language Model for Readers' Emotion Detection [3.6678641723285446]
本稿では,REDAffectiveLMと呼ばれる深層学習モデルを用いて,短文文書からの読み手感情検出のための新しい手法を提案する。
コンテクストに特化してリッチ表現に影響を与え, リッチBi-LSTM+Attentionに影響を及ぼすタンデムにおいて, トランスフォーマーに基づく事前学習言語モデルを用いることで, リッチ表現に影響を及ぼす。
論文 参考訳(メタデータ) (2023-01-21T19:28:25Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。