論文の概要: A Drop of Ink Makes a Million Think: The Spread of False Information in
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.04812v2
- Date: Thu, 25 May 2023 06:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 20:08:12.618224
- Title: A Drop of Ink Makes a Million Think: The Spread of False Information in
Large Language Models
- Title(参考訳): インクの一滴が100万の思考を生み出す - 大規模言語モデルにおける偽情報の拡散
- Authors: Ning Bian, Peilin Liu, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben He, Le
Sun
- Abstract要約: 大規模言語モデル (LLM) において, 偽情報がどのように拡散し, 関連する応答に影響を及ぼすかを検討する。
偽情報は、その直接的な影響を超えて、世界的な有害な影響を及ぼす。
現在の LLM は権威バイアスの影響を受けやすい、すなわち LLM は信頼に値するスタイルで提示された偽情報に従う傾向にある。
- 参考スコア(独自算出の注目度): 42.44508771537717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have gained increasing prominence in artificial
intelligence, making a profound impact on society and various industries like
business and science. However, the presence of false information on the
internet and in text corpus poses a significant risk to the reliability and
safety of LLMs, underscoring the urgent need to understand the mechanisms of
how false information influences the behaviors of LLMs. In this paper, we dive
into this problem and investigate how false information spreads in LLMs and
affects related responses. Specifically, in our series of experiments, we
investigate different factors that can influence the spread of information in
LLMs by comparing three degrees of information relevance (direct, indirect, and
peripheral), four information source styles (Twitter, web blogs, news reports,
and research papers) and two common knowledge injection paradigms (in-context
injection and learning-based injection). The experimental results show that
(1)False information will spread and contaminate related memories in LLMs via a
semantic diffusion process, i.e., false information has global detrimental
effects beyond its direct impact. (2)Current LLMs are susceptible to authority
bias, i.e., LLMs are more likely to follow false information presented in
trustworthy styles such as news reports and research papers, which usually
cause deeper and wider pollution of information. (3)Current LLMs are more
sensitive to false information through in-context injection than through
learning-based injection, which severely challenges the reliability and safety
of LLMs even when all training data are trusty and correct. The above findings
raise the need for new false information defense algorithms to address the
global impact of false information, and new alignment algorithms to unbiasedly
lead LLMs to follow essential human values rather than superficial patterns.
- Abstract(参考訳): 大規模言語モデル(llm)は、人工知能において注目を集め、社会やビジネスや科学といった様々な産業に大きな影響を与えている。
しかし、インターネットやテキストコーパスにおける偽情報の存在は、LLMの信頼性と安全性に重大なリスクをもたらし、偽情報がLLMの行動にどのように影響するかのメカニズムを緊急に理解する必要があることを強調している。
本稿では,この問題を掘り下げ,LLMにおける偽情報の拡散が関連する応答に与える影響を考察する。
具体的には,3つの情報関連度(間接的,間接的,周辺的),4つの情報ソーススタイル(twitter,webブログ,ニュースレポート,研究論文),および2つの共通知識注入パラダイム(インコンテキストインジェクションと学習ベースのインジェクション)を比較し,llmにおける情報の拡散に影響を与える要因について検討した。
実験の結果,(1)false情報は,意味拡散過程を通じてllm内の関連記憶を拡散・汚染し,その直接的な影響を超えた世界的な有害な影響を有することがわかった。
2)現在のLLMは、権限バイアスの影響を受けやすいため、ニュースや研究論文などの信頼できるスタイルで提示された偽情報に従う傾向が強く、情報のより深い汚染を引き起こすことが多い。
(3)現在のLLMは,学習ベースインジェクションよりもコンテキスト内インジェクションによる偽情報に敏感であり,すべてのトレーニングデータが信頼性と正確である場合でも,LLMの信頼性と安全性を著しく損なう。
以上の知見は、偽情報のグローバルな影響に対処するための新しい偽情報防御アルゴリズムの必要性を提起し、LLMが表面的なパターンではなく、本質的な人間の価値に従うことを不偏に導く新しいアライメントアルゴリズムの必要性を提起する。
関連論文リスト
- Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for
Causality [22.00533107457377]
大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。
LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。
我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LSMを使用することを想定する。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z) - The Internal State of an LLM Knows When its Lying [8.442084903594528]
LLM生成文の真偽を検出するための,単純かつ効果的な手法を提案する。
LLMのアクティベーション値に基づいて、どの文が真か偽かを検出するように、分類器が訓練される。
実験の結果,文の正確性を検出する手法は,数発のプロンプト法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z) - When Not to Trust Language Models: Investigating Effectiveness and
Limitations of Parametric and Non-Parametric Memories [58.342130509118704]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむが、スケーリングは、事実知識のテールでの記憶を確実に改善することができない。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [52.69080477699425]
計算言語学者はこの事実を利用して、言語コーパスから共起に基づく知識を取得する大きな言語モデル(LLM)を構築している。
LLMは現実世界の出来事に関する一般的な知識を獲得しますか?
LLMは可能な事象と不可能事象を体系的に区別するが、起こりうる事象とありそうもない事象を区別する際には人間のパフォーマンスに欠けることがわかった。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z) - Addressing contingency in algorithmic (mis)information classification:
Toward a responsible machine learning agenda [0.9659642285903421]
データサイエンティストは、モデルトレーニングとテストに使用される「真実の情報源の客観性、信頼性、正当性」にスタンスを取る必要がある。
彼らの報告された高い正確さと性能にもかかわらず、ML駆動のモデレーションシステムは、オンラインの公開討論を形作り、不正な検閲や偽の信念の強化のような下流のネガティブな影響を生み出す可能性がある。
論文 参考訳(メタデータ) (2022-10-05T17:34:51Z) - SOK: Fake News Outbreak 2021: Can We Stop the Viral Spread? [5.64512235559998]
ソーシャルネットワークの完全解釈と使いやすさは、今日の世界での情報の生成と配布に革命をもたらした。
従来のメディアチャンネルとは異なり、ソーシャルネットワークは偽情報や偽情報の拡散を迅速かつ広範囲に促進する。
虚偽情報の拡散は、大衆の行動、態度、信念に深刻な影響を及ぼす。
論文 参考訳(メタデータ) (2021-05-22T09:26:13Z) - Machine Learning Explanations to Prevent Overtrust in Fake News
Detection [64.46876057393703]
本研究では、ニュースレビュープラットフォームに組み込んだ説明可能なAIアシスタントが、フェイクニュースの拡散と戦う効果について検討する。
我々は、ニュースレビューと共有インターフェースを設計し、ニュース記事のデータセットを作成し、4つの解釈可能なフェイクニュース検出アルゴリズムを訓練する。
説明可能なAIシステムについてより深く理解するために、説明プロセスにおけるユーザエンゲージメント、メンタルモデル、信頼、パフォーマンス対策の相互作用について議論する。
論文 参考訳(メタデータ) (2020-07-24T05:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。