論文の概要: A linguistic analysis of undesirable outcomes in the era of generative AI
- arxiv url: http://arxiv.org/abs/2410.12341v1
- Date: Wed, 16 Oct 2024 08:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:22.595997
- Title: A linguistic analysis of undesirable outcomes in the era of generative AI
- Title(参考訳): 生成AI時代における望ましくない結果の言語学的分析
- Authors: Daniele Gambetta, Gizem Gezici, Fosca Giannotti, Dino Pedreschi, Alistair Knott, Luca Pappalardo,
- Abstract要約: 本稿では,LLama2のチャットバージョンを基盤として,生成されたコンテンツの言語的側面に着目した総合シミュレーションフレームワークを提案する。
以上の結果から,このモデルでは世代ごとの語彙的リッチコンテンツの生成が減少し,多様性が低下することが示唆された。
オートファジーは、最初のモデルをより創造的で疑わしい、混乱したものに変換し、不正確な答えをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 4.841442157674423
- License:
- Abstract: Recent research has focused on the medium and long-term impacts of generative AI, posing scientific and societal challenges mainly due to the detection and reliability of machine-generated information, which is projected to form the major content on the Web soon. Prior studies show that LLMs exhibit a lower performance in generation tasks (model collapse) as they undergo a fine-tuning process across multiple generations on their own generated content (self-consuming loop). In this paper, we present a comprehensive simulation framework built upon the chat version of LLama2, focusing particularly on the linguistic aspects of the generated content, which has not been fully examined in existing studies. Our results show that the model produces less lexical rich content across generations, reducing diversity. The lexical richness has been measured using the linguistic measures of entropy and TTR as well as calculating the POSTags frequency. The generated content has also been examined with an $n$-gram analysis, which takes into account the word order, and semantic networks, which consider the relation between different words. These findings suggest that the model collapse occurs not only by decreasing the content diversity but also by distorting the underlying linguistic patterns of the generated text, which both highlight the critical importance of carefully choosing and curating the initial input text, which can alleviate the model collapse problem. Furthermore, we conduct a qualitative analysis of the fine-tuned models of the pipeline to compare their performances on generic NLP tasks to the original model. We find that autophagy transforms the initial model into a more creative, doubtful and confused one, which might provide inaccurate answers and include conspiracy theories in the model responses, spreading false and biased information on the Web.
- Abstract(参考訳): 近年の研究では、生成AIの中期的・長期的影響に焦点が当てられ、近日中にウェブ上の主要なコンテンツを形成すると予測されている機械情報の検出と信頼性が主な原因で、科学的・社会的な課題を提起している。
従来の研究では、LLMは生成タスク(モデル崩壊)においてより低いパフォーマンスを示しており、複数の世代にわたる自分自身の生成コンテンツ(自己消費ループ)の微調整プロセスを実行している。
本稿では,LLama2のチャットバージョン上に構築された包括的シミュレーションフレームワークについて述べる。
以上の結果から,このモデルでは世代ごとの語彙的リッチコンテンツの生成が減少し,多様性が低下することが示唆された。
The lexical richness were measured using the language measures of entropy and TTR and calculated the POSTags frequency。
生成されたコンテンツは、単語の順序を考慮に入れた$n$-gram分析や、異なる単語間の関係を考慮に入れたセマンティックネットワークでも検討されている。
これらの結果から, モデル崩壊は, 内容の多様性を低下させるだけでなく, 生成したテキストの言語パターンを歪ませることによって起こることが示唆された。
さらに,パイプラインの微調整モデルの定性解析を行い,汎用NLPタスクの性能と元のモデルとの比較を行う。
オートファジーは、最初のモデルをより創造的で疑わしい、混乱したものに変換し、不正確な回答を与え、モデル応答に陰謀論を含め、偽情報や偏見情報をWeb上に広めるかもしれない。
関連論文リスト
- From Identifiable Causal Representations to Controllable Counterfactual Generation: A Survey on Causal Generative Modeling [17.074858228123706]
基本的な理論、方法論、欠点、データセット、メトリクスに重点を置いています。
フェアネス、プライバシ、アウト・オブ・ディストリビューションの一般化、精密医療、生物科学における因果生成モデルの応用について述べる。
論文 参考訳(メタデータ) (2023-10-17T05:45:32Z) - Self-Consuming Generative Models Go MAD [21.056900382589266]
我々は、合成データを使って画像、テキスト、その他のデータ型の生成AIアルゴリズムを訓練する方法を研究する。
自己食ループの各世代に十分な新鮮な実データがないため、将来の生成モデルは、その品質(精度)や多様性(リコール)が徐々に減少する運命にある。
モデルオートファジー障害 (MAD) とよばれ, 狂牛病に類似している。
論文 参考訳(メタデータ) (2023-07-04T17:59:31Z) - Diversity vs. Recognizability: Human-like generalization in one-shot
generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文 参考訳(メタデータ) (2022-05-20T13:17:08Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。