論文の概要: Does a Large Language Model Really Speak in Human-Like Language?
- arxiv url: http://arxiv.org/abs/2501.01273v1
- Date: Thu, 02 Jan 2025 14:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:12.519513
- Title: Does a Large Language Model Really Speak in Human-Like Language?
- Title(参考訳): 大規模言語モデルは本当に人間のような言語で話すのか?
- Authors: Mose Park, Yunjin Choi, Jong-June Jeon,
- Abstract要約: 大規模言語モデル(LLM)が最近登場し、非常に自然で人間らしいテキストを生成する能力によって、かなりの注目を集めている。
本研究では,LLM生成テキストと人文テキストの潜在コミュニティ構造を比較した。
以上の結果から,GPT生成テキストは人為的なテキストとは相変わらず異なることが示唆された。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License:
- Abstract: Large Language Models (LLMs) have recently emerged, attracting considerable attention due to their ability to generate highly natural, human-like text. This study compares the latent community structures of LLM-generated text and human-written text within a hypothesis testing procedure. Specifically, we analyze three text sets: original human-written texts ($\mathcal{O}$), their LLM-paraphrased versions ($\mathcal{G}$), and a twice-paraphrased set ($\mathcal{S}$) derived from $\mathcal{G}$. Our analysis addresses two key questions: (1) Is the difference in latent community structures between $\mathcal{O}$ and $\mathcal{G}$ the same as that between $\mathcal{G}$ and $\mathcal{S}$? (2) Does $\mathcal{G}$ become more similar to $\mathcal{O}$ as the LLM parameter controlling text variability is adjusted? The first question is based on the assumption that if LLM-generated text truly resembles human language, then the gap between the pair ($\mathcal{O}$, $\mathcal{G}$) should be similar to that between the pair ($\mathcal{G}$, $\mathcal{S}$), as both pairs consist of an original text and its paraphrase. The second question examines whether the degree of similarity between LLM-generated and human text varies with changes in the breadth of text generation. To address these questions, we propose a statistical hypothesis testing framework that leverages the fact that each text has corresponding parts across all datasets due to their paraphrasing relationship. This relationship enables the mapping of one dataset's relative position to another, allowing two datasets to be mapped to a third dataset. As a result, both mapped datasets can be quantified with respect to the space characterized by the third dataset, facilitating a direct comparison between them. Our results indicate that GPT-generated text remains distinct from human-authored text.
- Abstract(参考訳): 大規模言語モデル(LLM)が最近登場し、非常に自然で人間らしいテキストを生成する能力によって、かなりの注目を集めている。
本研究では,LLM生成テキストと人文テキストの仮説テスト手法における潜在コミュニティ構造を比較した。
具体的には、オリジナルテキスト(\mathcal{O}$)、LLMパラフレーズバージョン(\mathcal{G}$)、および$\mathcal{G}$から派生した2つのパラフレーズセット(\mathcal{S}$)の3つのテキストセットを分析する。
1) $\mathcal{O}$ と $\mathcal{G}$ は $\mathcal{G}$ と $\mathcal{S}$ の差と同じなのか?
(2)$\mathcal{G}$は、テキストの可変性を制御するLLMパラメータが調整されるので、$\mathcal{O}$とよりよく似ていますか?
最初の質問は、LLM生成したテキストが本当に人間の言語に似ていた場合、ペア($\mathcal{O}$, $\mathcal{G}$)とペア($\mathcal{G}$, $\mathcal{S}$)のギャップは、両方のペアが元のテキストとパラフレーズで構成されているため、ペア($\mathcal{O}$, $\mathcal{G}$)と類似しているべきであるという仮定に基づいている。
第2の質問は、LLM生成と人文の類似度が、テキスト生成の幅の変化とともに変化するかどうかを検討する。
これらの問題に対処するために,各テキストがパラフレージング関係のため,すべてのデータセットに対応する部分を持つという事実を活用する統計的仮説テストフレームワークを提案する。
この関係により、あるデータセットの相対的な位置を別のデータセットにマッピングすることができ、2つのデータセットを第3のデータセットにマッピングすることができる。
結果として、両方のマップされたデータセットは、第3のデータセットによって特徴づけられる空間に関して定量化され、それらの間の直接比較が容易になる。
以上の結果から,GPT生成テキストは人為的なテキストとは相変わらず異なることが示唆された。
関連論文リスト
- Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - Federated UCBVI: Communication-Efficient Federated Regret Minimization with Heterogeneous Agents [13.391318494060975]
We present the Federated upper Confidence bound Value Iteration algorithm (textttFed-UCBVI$)
textttFed-UCBVI$ の後悔は $tildemathcalO(sqrtH3 |mathcalS| |mathcalA| T / M)$ としてスケールすることを証明する。
既存の強化学習アプローチとは異なり、$textttFed-UCBVI$の通信複雑性は、その数によってわずかに増加する。
論文 参考訳(メタデータ) (2024-10-30T11:05:50Z) - Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - Creating an AI Observer: Generative Semantic Workspaces [4.031100721019478]
我々は、$textbf[G]$enerative $textbf[S]$emantic $textbf[W]$orkspace (GSW)を紹介します。
GSWは、伝統的に定義されたレキシコンラベルのセットとは対照的に、生成的なスタイルのセマンティックフレームワークを作成する。
論文 参考訳(メタデータ) (2024-06-07T00:09:13Z) - Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - $\textit{Swap and Predict}$ -- Predicting the Semantic Changes in Words
across Corpora by Context Swapping [36.10628959436778]
目的語である$w$が2つの異なるテキストコーパス間の意味を変えるかどうかを予測する問題を考える。
本稿では,$mathcalC$と$mathcalC$をランダムに交換する教師なしの手法を提案する。
提案手法は,英文意味変化予測タスクの強いベースラインに比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-16T13:39:44Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Supervised Training of Conditional Monge Maps [107.78770597815242]
最適輸送(OT)理論は、多くの可能な選択の中から確率測度を他のものにマッピングする最も効率的な方法を定義し、選択する一般的な原理を記述している。
本研究では,コンテキスト変数に条件付きOTマップの族を推定するマルチタスク手法であるCondOTを紹介する。
本研究では,CondOTの遺伝的・治療的摂動の任意の組み合わせが単一細胞に与える影響を推測する能力を示す。
論文 参考訳(メタデータ) (2022-06-28T19:34:44Z) - Taking a hint: How to leverage loss predictors in contextual bandits? [63.546913998407405]
我々は,損失予測の助けを借りて,文脈的包帯における学習を研究する。
最適な後悔は$mathcalO(minsqrtT, sqrtmathcalETfrac13)$である。
論文 参考訳(メタデータ) (2020-03-04T07:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。