論文の概要: Judgments of research co-created by generative AI: experimental evidence
- arxiv url: http://arxiv.org/abs/2305.11873v1
- Date: Wed, 3 May 2023 15:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-28 05:37:58.536116
- Title: Judgments of research co-created by generative AI: experimental evidence
- Title(参考訳): 生成AIによる共同研究の判断--実験的証拠
- Authors: Pawe{\l} Niszczota, Paul Conway
- Abstract要約: 研究プロセスの一部をLSMに委譲することで、研究者や科学的成果に不信感と評価が生じるかどうかを検証する。
人々は、人間に委任するよりもLLMに委任する方が受け入れがたいと判断した。
我々は、この切り下げが、生成的AI利用の過小評価にどのように移行するかについて議論する。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The introduction of ChatGPT has fuelled a public debate on the use of
generative AI (large language models; LLMs), including its use by researchers.
In the current work, we test whether delegating parts of the research process
to LLMs leads people to distrust and devalue researchers and scientific output.
Participants (N=402) considered a researcher who delegates elements of the
research process to a PhD student or LLM, and rated (1) moral acceptability,
(2) trust in the scientist to oversee future projects, and (3) the accuracy and
quality of the output. People judged delegating to an LLM as less acceptable
than delegating to a human (d = -0.78). Delegation to an LLM also decreased
trust to oversee future research projects (d = -0.80), and people thought the
results would be less accurate and of lower quality (d = -0.85). We discuss how
this devaluation might transfer into the underreporting of generative AI use.
- Abstract(参考訳): ChatGPTの導入は、研究者による使用を含む生成AI(大規模言語モデル; LLM)の使用に関する公的な議論を加速させた。
本研究では,研究プロセスの一部をLSMに委譲することで,研究者や科学的成果に不信感を抱かせるか検証する。
参加者(N=402)は、研究プロセスの要素をPhD学生またはLLMに委譲し、(1)道徳的受容性、(2)将来のプロジェクトを監視する科学者への信頼、(3)アウトプットの正確性と品質を評価した研究者である。
人々は、LLMへの委任は人間への委譲よりも受け入れられないと判断した(d = -0.78)。
LLMへの委譲はまた、将来の研究プロジェクトを監督する信頼(d = -0.80)を減らし、その結果はより正確で品質が低い(d = -0.85)と考えた。
我々は、この切り下げが、生成的AI利用の過小評価にどのように移行するかについて議論する。
関連論文リスト
- Large language models surpass human experts in predicting neuroscience results [60.26891446026707]
大きな言語モデル(LLM)は、人間の専門家よりも新しい結果を予測する。
BrainBenchは神経科学の結果を予測するためのベンチマークだ。
我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。
論文 参考訳(メタデータ) (2024-03-04T15:27:59Z) - FFT: Towards Harmlessness Evaluation and Analysis for LLMs with
Factuality, Fairness, Toxicity [21.539026782010573]
生成的人工知能の普及により、AI生成テキストによる潜在的な害に対する懸念が高まっている。
これまでの研究者は、生成言語モデルの無害性を評価するために多くの努力を払ってきた。
論文 参考訳(メタデータ) (2023-11-30T14:18:47Z) - Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。
我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文 参考訳(メタデータ) (2023-11-15T20:42:11Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity [1.7947441434255664]
大規模生成言語モデル(LLM)は、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する自由応答をシミュレートすることができる。
本稿では, LLMが生成する人工シリコン参加者について, 定性的手法を用いて生産的に研究できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-09-06T15:00:44Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Potential Benefits of Employing Large Language Models in Research in
Moral Education and Development [0.0]
近年,計算機科学者は大規模言語コーパスと人間強化を用いた予測モデルを訓練することで,大規模言語モデル(LLM)を開発した。
LLMが道徳教育・開発研究にどのように貢献するかについて検討する。
論文 参考訳(メタデータ) (2023-06-23T22:39:05Z) - Exploring Qualitative Research Using LLMs [8.545798128849091]
この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。
私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
論文 参考訳(メタデータ) (2023-06-23T05:21:36Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。