Fugu-MT 論文翻訳(概要): Beyond Turing Test: Can GPT-4 Sway Experts' Decisions?

論文の概要: Beyond Turing Test: Can GPT-4 Sway Experts' Decisions?

arxiv url: http://arxiv.org/abs/2409.16710v2
Date: Mon, 25 Nov 2024 07:12:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.075022
Title: Beyond Turing Test: Can GPT-4 Sway Experts' Decisions?
Title（参考訳）: チューリングテストを超えて: GPT-4は専門家の判断を下せるか?
Authors: Takehiro Takayanagi, Hiroya Takamura, Kiyoshi Izumi, Chung-Chi Chen,
Abstract要約: 本稿では,生成したテキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。
参考スコア（独自算出の注目度）: 14.964922012236498
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the post-Turing era, evaluating large language models (LLMs) involves assessing generated text based on readers' reactions rather than merely its indistinguishability from human-produced content. This paper explores how LLM-generated text impacts readers' decisions, focusing on both amateur and expert audiences. Our findings indicate that GPT-4 can generate persuasive analyses affecting the decisions of both amateurs and professionals. Furthermore, we evaluate the generated text from the aspects of grammar, convincingness, logical coherence, and usefulness. The results highlight a high correlation between real-world evaluation through audience reactions and the current multi-dimensional evaluators commonly used for generative models. Overall, this paper shows the potential and risk of using generated text to sway human decisions and also points out a new direction for evaluating generated text, i.e., leveraging the reactions and decisions of readers. We release our dataset to assist future research.
Abstract（参考訳）: 戦後、大規模言語モデル (LLM) の評価には、人為的コンテンツと区別できないだけでなく、読者の反応に基づいて生成されたテキストを評価することが含まれる。本稿では,LLM生成テキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。さらに, 文法, 説得性, 論理コヒーレンス, 有用性の両面から, 生成したテキストを評価する。その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。本稿は, 人的判断を刺激するために生成テキストを使用する可能性とリスクを示すとともに, 生成テキストを評価するための新たな方向性, すなわち, 読者の反応と判断を活用することの可能性を指摘する。将来の研究を支援するためにデータセットをリリースします。

関連論文リスト

Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review [53.99984738447279]
最近の作業は、このタスクを著者の専門知識と意図を活かした自動テキスト生成として捉えている。本稿では,著者の明示的な入力,多属性制御,評価誘導による改良を統合したREspGenについて紹介する。この定式化をサポートするために、アライメントされたレビュー-レスポンス-リビジョン三つ子の最初の大規模データセットであるRe$3$Alignを構築した。
論文参考訳（メタデータ） (2026-01-19T14:07:10Z)
Who Writes What: Unveiling the Impact of Author Roles on AI-generated Text Detection [44.05134959039957]
本稿では,社会言語学的属性・ジェンダー,CEFR習熟度,学術分野,言語環境に影響を及ぼすAIテキスト検出装置について検討する。 CEFRの習熟度と言語環境は一貫して検出器の精度に影響を与え,性別や学術分野は検出器に依存した効果を示した。これらの発見は、特定の人口集団に不公平に罰を与えるのを避けるために、社会的に認識されたAIテキストの検出が不可欠であることを示している。
論文参考訳（メタデータ） (2025-02-18T07:49:31Z)
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T01:15:07Z)
ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text Generation [19.333896936153618]
ExPerTは、パーソナライズされたテキスト生成のための説明可能な参照ベースの評価フレームワークである。実験の結果, ExPerTは人間の判断に合わせた相対的な7.2%の改善を達成できた。人間の評価者は、ExPerTの説明を5つ中4.7に評価し、評価決定をより解釈可能なものにする効果を強調した。
論文参考訳（メタデータ） (2025-01-24T22:44:22Z)
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。 LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文参考訳（メタデータ） (2025-01-14T14:49:14Z)
Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models [1.565361244756411]
本稿では,大規模言語モデル(LLM)を用いて読解項目の生成と評価を行う。我々は人的・自動的な評価のためのプロトコルを開発した。以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。
論文参考訳（メタデータ） (2024-04-11T13:11:21Z)
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文参考訳（メタデータ） (2024-03-11T21:51:39Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。新たに登場したAI生成の文献レビューも評価されている。この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文参考訳（メタデータ） (2023-11-28T14:55:52Z)
When Automated Assessment Meets Automated Content Generation: Examining Text Quality in the Era of GPTs [5.952677937197871]
我々は、人間のコンテンツに基づいてトレーニングされたMLベースのスコアリングモデルが、人間が生成したコンテンツとGPTの質をどのように評価するかを経験的に評価する。ベンチマーク分析の結果,トランスフォーマー事前学習言語モデル(PLM)は,CNN/RNNや特徴ベースML手法と比較して,人間のエッセイ品質をより正確に評価できることがわかった。
論文参考訳（メタデータ） (2023-09-25T19:32:18Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
REDAffectiveLM: Leveraging Affect Enriched Embedding and Transformer-based Neural Language Model for Readers' Emotion Detection [3.6678641723285446]
本稿では,REDAffectiveLMと呼ばれる深層学習モデルを用いて,短文文書からの読み手感情検出のための新しい手法を提案する。コンテクストに特化してリッチ表現に影響を与え, リッチBi-LSTM+Attentionに影響を及ぼすタンデムにおいて, トランスフォーマーに基づく事前学習言語モデルを用いることで, リッチ表現に影響を及ぼす。
論文参考訳（メタデータ） (2023-01-21T19:28:25Z)
Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文参考訳（メタデータ） (2022-12-24T06:40:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。