論文の概要: Investigating Wit, Creativity, and Detectability of Large Language Models in Domain-Specific Writing Style Adaptation of Reddit's Showerthoughts
- arxiv url: http://arxiv.org/abs/2405.01660v1
- Date: Thu, 2 May 2024 18:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:54:33.202817
- Title: Investigating Wit, Creativity, and Detectability of Large Language Models in Domain-Specific Writing Style Adaptation of Reddit's Showerthoughts
- Title(参考訳): Redditのショーア思想のドメイン特化書体スタイル適応におけるワイト,クリエイティビティ,および大規模言語モデルの検出可能性の検討
- Authors: Tolga Buz, Benjamin Frost, Nikola Genchev, Moritz Schneider, Lucie-Aimée Kaffee, Gerard de Melo,
- Abstract要約: ショーア思想の領域において,LLMが人間の書体スタイルを簡潔で創造的なテキストで再現する能力について検討する。
創造的で機知に富んだテキストの品質を考慮に入れた、特定の次元のテキストに対する人間の嗜好を測定する。
人間の評価者は、生成したテキストの創造性について平均的にわずかに悪い評価を下すが、人間の文章とAI生成したテキストを確実に区別することはできないと結論付けている。
- 参考スコア(独自算出の注目度): 17.369951848952265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Language Models (LLMs) have shown the ability to generate content that is difficult or impossible to distinguish from human writing. We investigate the ability of differently-sized LLMs to replicate human writing style in short, creative texts in the domain of Showerthoughts, thoughts that may occur during mundane activities. We compare GPT-2 and GPT-Neo fine-tuned on Reddit data as well as GPT-3.5 invoked in a zero-shot manner, against human-authored texts. We measure human preference on the texts across the specific dimensions that account for the quality of creative, witty texts. Additionally, we compare the ability of humans versus fine-tuned RoBERTa classifiers to detect AI-generated texts. We conclude that human evaluators rate the generated texts slightly worse on average regarding their creative quality, but they are unable to reliably distinguish between human-written and AI-generated texts. We further provide a dataset for creative, witty text generation based on Reddit Showerthoughts posts.
- Abstract(参考訳): 近年のLarge Language Models (LLM) は、人間の文章と区別が難しい、あるいは不可能なコンテンツを生成する能力を示している。
本研究は,Shower Thoughts領域の短い創造的テキストにおいて,人間の書体スタイルを再現する異なる大きさのLLMが,日常的な活動中に起こりうる思考を再現する能力について考察する。
GPT-2とGPT-NeoをRedditのデータで微調整し、GPT-3.5をゼロショットで実行し、人間によるテキストと比較した。
創造的で機知に富んだテキストの品質を考慮に入れた、特定の次元のテキストに対する人間の嗜好を測定する。
さらに、AI生成テキストを検出するための微調整RoBERTa分類器と人間の比較を行った。
人間の評価者は、生成したテキストの創造性について平均的にわずかに悪い評価を下すが、人間の文章とAI生成したテキストを確実に区別することはできないと結論付けている。
さらに、Reddit Shower Thoughtsの投稿に基づく創造的で知的なテキスト生成のためのデータセットも提供します。
関連論文リスト
- AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。
CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。
実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文 参考訳(メタデータ) (2024-10-05T18:55:01Z) - Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - ChatGPT as a commenter to the news: can LLMs generate human-like
opinions? [3.0309690768567754]
我々は、GPT-3.5がオランダのニュース記事に対して、どの程度人間的なコメントを生成できるかを検討する。
複数のプロンプト技術で人間の類似性を解析する。
細調整されたBERTモデルでは,GPT-3.5生成したコメントと人手によるコメントを容易に区別できることがわかった。
論文 参考訳(メタデータ) (2023-12-21T15:46:36Z) - Intrinsic Dimension Estimation for Robust Detection of AI-Generated
Texts [22.852855047237153]
自然言語におけるフロートテキストの平均内在次元は、アルファベットベースの言語では9ドル、中国語では7ドル前後で推移している。
この特性により、スコアベースの人工テキスト検出器を構築することができる。
論文 参考訳(メタデータ) (2023-06-07T18:38:04Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - ChatGPT or Human? Detect and Explain. Explaining Decisions of Machine
Learning Model for Detecting Short ChatGPT-generated Text [2.0378492681344493]
機械学習モデルを効果的に訓練することにより、本来の人間と一見人間(すなわちChatGPT生成)のテキストを正確に区別できるかどうかを検討する。
我々は、ChatGPT生成テキストと人文生成テキストを区別するために訓練されたモデルの背後にある理由を理解するために、説明可能な人工知能フレームワークを使用している。
本研究は,人間生成テキストとChatGPT生成テキストを比較した2つの実験を行い,短いオンラインレビューに焦点を当てた。
論文 参考訳(メタデータ) (2023-01-30T08:06:08Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。