論文の概要: Neural Authorship Attribution: Stylometric Analysis on Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.07305v1
- Date: Mon, 14 Aug 2023 17:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 12:07:35.943937
- Title: Neural Authorship Attribution: Stylometric Analysis on Large Language
Models
- Title(参考訳): ニューラルオーサシップの属性:大規模言語モデルにおけるスティロメトリ解析
- Authors: Tharindu Kumarage and Huan Liu
- Abstract要約: GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)は、AIによるテキスト生成を著しく推進している。
誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。
- 参考スコア(独自算出の注目度): 16.63955074133222
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) such as GPT-4, PaLM, and Llama have
significantly propelled the generation of AI-crafted text. With rising concerns
about their potential misuse, there is a pressing need for AI-generated-text
forensics. Neural authorship attribution is a forensic effort, seeking to trace
AI-generated text back to its originating LLM. The LLM landscape can be divided
into two primary categories: proprietary and open-source. In this work, we
delve into these emerging categories of LLMs, focusing on the nuances of neural
authorship attribution. To enrich our understanding, we carry out an empirical
analysis of LLM writing signatures, highlighting the contrasts between
proprietary and open-source models, and scrutinizing variations within each
group. By integrating stylometric features across lexical, syntactic, and
structural aspects of language, we explore their potential to yield
interpretable results and augment pre-trained language model-based classifiers
utilized in neural authorship attribution. Our findings, based on a range of
state-of-the-art LLMs, provide empirical insights into neural authorship
attribution, paving the way for future investigations aimed at mitigating the
threats posed by AI-generated misinformation.
- Abstract(参考訳): GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)はAIによるテキスト生成を著しく推進している。
誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。
ニューラルオーサシップの帰属は法医学的な取り組みであり、AI生成したテキストを元のLLMに遡ろうとしている。
LLMの展望はプロプライエタリとオープンソースという2つの主要なカテゴリに分けられる。
本研究では,ニューラルオーサシップ帰属のニュアンスに焦点をあてて,これらのLLMの新たなカテゴリを掘り下げる。
理解を深めるために、我々はllm書き込み署名の実証分析を行い、プロプライエタリモデルとオープンソースモデルの対比を強調し、各グループ内のバリエーションを精査する。
語彙的・構文的・構造的な言語特徴を統合することで,解釈可能な結果が得られる可能性を探究し,ニューラルオーサシップ属性に活用される事前学習された言語モデルに基づく分類器を強化する。
我々の発見は、最先端のLSMに基づいて、ニューラルネットワークの作者の帰属に関する実証的な洞察を提供し、AIが生成した誤報による脅威を軽減することを目的とした将来の調査の道を開く。
関連論文リスト
- Can Large Language Models Identify Authorship? [18.378744138365537]
大規模言語モデル(LLM)は、推論と問題解決に非常に優れた能力を示している。
本稿では,著者分析におけるLLMの包括的評価を行う。
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - A Survey of AI-generated Text Forensic Systems: Detection, Attribution,
and Characterization [13.44566185792894]
AI生成テキスト鑑定は、LLMの誤用に対処する新たな分野である。
本稿では,検出,帰属,特性の3つの主要な柱に着目した詳細な分類法を紹介する。
我々は、AI生成テキスト法医学研究の利用可能なリソースを探究し、AI時代の法医学システムの進化的課題と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-03-02T09:39:13Z) - Quantitative knowledge retrieval from large language models [4.155711233354597]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
本稿では,データ解析作業を支援するための定量的知識検索のメカニズムとして,LLMの実現可能性について検討する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - LLMs may Dominate Information Access: Neural Retrievers are Biased
Towards LLM-Generated Texts [36.73455759259717]
大規模言語モデル(LLM)は情報検索(IR)のパラダイムに革命をもたらした。
意外なことに, ニューラルネットワークによる検索モデルでは, LLM生成文書のランクが高くなる傾向が示唆された。
また、ソースバイアスを軽減するために、最適化目的に対するプラグアンドプレイのデバイアス制約を提案する。
論文 参考訳(メタデータ) (2023-10-31T14:42:23Z) - Disentangled Representation Learning with Large Language Models for
Text-Attributed Graphs [57.052160123387104]
本稿では,TAGに対するLLMの推論と予測能力を向上させることができるDGTLモデルを提案する。
提案するDGTLモデルでは, グラフ構造情報をGNN層に組み込む。
実験により,提案したDGTLモデルにより,最先端のベースラインよりも優れた性能,あるいは同等の性能が得られることを示した。
論文 参考訳(メタデータ) (2023-10-27T14:00:04Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - From Text to Source: Results in Detecting Large Language Model-Generated
Content [1.534667887016089]
大きな言語モデル(LLM)は、人間に似たテキストを生成する能力によって祝われる。
本稿では,LLM生成テキストと人文テキストを区別するために訓練された分類器が,それ以上の訓練をすることなく,目標LLMからテキストを検出できるかどうかを評価する「クラスモデル検出」について検討する。
この研究は、ソースモデル識別、モデルファミリー分類、モデルサイズ分類を含むモデル属性についても検討している。
論文 参考訳(メタデータ) (2023-09-23T09:51:37Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。