論文の概要: Creating a Large Language Model of a Philosopher
- arxiv url: http://arxiv.org/abs/2302.01339v1
- Date: Thu, 2 Feb 2023 01:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 18:33:37.426813
- Title: Creating a Large Language Model of a Philosopher
- Title(参考訳): 哲学者の大規模言語モデルの作成
- Authors: Eric Schwitzgebel, David Schwitzgebel, and Anna Strasser
- Abstract要約: 我々は、哲学者ダニエル・C・デネット(Daniel C. Dennett)の著作でOpenAIのGPT-3を微調整した。
デネットの業績の専門家は20%の確率よりも51%の確率で成功しましたが、仮説の80%の確率では不十分でした。
一般研究参加者は、GPT-3の反応を「実際の人間の哲学者」の反応と区別する機会に近かった
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Can large language models be trained to produce philosophical texts that are
difficult to distinguish from texts produced by human philosophers? To address
this question, we fine-tuned OpenAI's GPT-3 with the works of philosopher
Daniel C. Dennett as additional training data. To explore the Dennett model, we
asked the real Dennett ten philosophical questions and then posed the same
questions to the language model, collecting four responses for each question
without cherry-picking. We recruited 425 participants to distinguish Dennett's
answer from the four machine-generated answers. Experts on Dennett's work (N =
25) succeeded 51% of the time, above the chance rate of 20% but short of our
hypothesized rate of 80% correct. For two of the ten questions, the language
model produced at least one answer that experts selected more frequently than
Dennett's own answer. Philosophy blog readers (N = 302) performed similarly to
the experts, while ordinary research participants (N = 98) were near chance
distinguishing GPT-3's responses from those of an "actual human philosopher".
- Abstract(参考訳): 大規模言語モデルは、人間の哲学者が作成したテキストと区別しにくい哲学的テキストを生成するように訓練できるだろうか?
この問題に対処するため、我々は哲学者ダニエル・C・デネット(Daniel C. Dennett)によるOpenAIのGPT-3を追加のトレーニングデータとして微調整した。
dennettモデルを調査するために、実際のdennettに哲学的な質問を10つ求め、言語モデルに同じ質問を付けて、チェリーピッキングなしで各質問に対して4つの回答を集めた。
我々はデンネットの回答を4つのマシン生成回答と区別するために425人の参加者を募集した。
デネットの業績の専門家(N = 25)は20%の確率より51%の確率で成功しましたが、仮説の80%の確率では不十分でした。
10の質問のうち2つについて、言語モデルは少なくとも1つの回答を生み出し、専門家がdennett自身の回答よりも頻繁に選択した。
哲学ブログの読者(N = 302)は専門家と類似し、通常の研究参加者(N = 98)はGPT-3の反応を「実際の人間の哲学者」と区別する機会に近かった。
関連論文リスト
- Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Overinformative Question Answering by Humans and Machines [26.31070412632125]
人間の回答における過剰な表現性は、質問者の目標に対する関連性を考えることによって引き起こされることを示す。
本研究は, GPT-3が, 実例と認知動機のある説明によって導かれるときの, 刺激的かつ人間的な回答パターンの形式に非常に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-11T21:41:41Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - Diminished Diversity-of-Thought in a Standard Large Language Model [3.683202928838613]
我々は、OpenAIのtext-davinci-003モデルを用いて、M many Labs 2レプリケーションプロジェクトから14の研究の複製を実行する。
分析可能な8つの研究のうち、GPTサンプルは元の結果の37.5%とM many Labs 2の結果の37.5%を複製した。
ある探索的追跡調査では、「正しい答え」がプロンプトに先行する人口統計の詳細を変えるのに堅牢であることが判明した。
論文 参考訳(メタデータ) (2023-02-13T17:57:50Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - AiSocrates: Towards Answering Ethical Quandary Questions [51.53350252548668]
AiSocrates(アイソクラテス)とは、異なる視点を倫理的四項に交換するシステムである。
AiSocratesは、複数の視点で倫理的4つの質問に対する有望な回答を生成する。
我々は,AiSocratesが人的価値を明示的に組み込んだNLPシステムの開発に向けた有望なステップであると主張する。
論文 参考訳(メタデータ) (2022-05-12T09:52:59Z) - Ranking Facts for Explaining Answers to Elementary Science Questions [1.4091801425319965]
小学校の理科試験では、学生は通常4つの選択肢の中から1つの答えを選び、なぜその選択をしたのかを説明することができる。
我々は,人間による事実から回答を導き出す新しい課題について考察する。
説明は、WorldTree corpus内の5000近い候補事実の人間による注釈付きセットから作成されます。
論文 参考訳(メタデータ) (2021-10-18T06:15:11Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。