論文の概要: A Drop of Ink may Make a Million Think: The Spread of False Information
in Large Language Models
- arxiv url: http://arxiv.org/abs/2305.04812v1
- Date: Mon, 8 May 2023 16:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:40:33.681361
- Title: A Drop of Ink may Make a Million Think: The Spread of False Information
in Large Language Models
- Title(参考訳): インクの一滴が100万の思考を生み出すかもしれない: 大規模言語モデルにおける誤情報の拡散
- Authors: Ning Bian, Peilin Liu, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben He, Le
Sun
- Abstract要約: 大規模言語モデル(LLM)における偽情報の拡散について検討する。
情報ソースの権威レベル(Twitter、Webブログ、ニュースレポート、研究論文)を比較検討する。
虚偽情報は、その直接的な影響を超えて、世界的有害な影響を及ぼすことがわかりました。
- 参考スコア(独自算出の注目度): 42.44508771537717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) like ChatGPT have gained increasing prominence
in artificial intelligence, making a profound impact on society and various
industries like business and science. However, the presence of false
information on the internet and in text corpus poses a significant risk to the
reliability and safety of LLMs, underscoring the urgent need to understand the
mechanisms of how false information impacts and spreads in LLMs. In this paper,
we investigate how false information spreads in LLMs and affects related
responses by conducting a series of experiments on the effects of source
authority, injection paradigm, and information relevance. Specifically, we
compare four authority levels of information sources (Twitter, web blogs, news
reports, and research papers), two common knowledge injection paradigms
(in-context injection and learning-based injection), and three degrees of
information relevance (direct, indirect, and peripheral). The experimental
results show that (1) False information will spread and contaminate related
memories in LLMs via a semantic diffusion process, i.e., false information has
global detrimental effects beyond its direct impact. (2) Current LLMs are
susceptible to authority bias, i.e., LLMs are more likely to follow false
information presented in a trustworthy style like news or research papers,
which usually causes deeper and wider pollution of information. (3) Current
LLMs are more sensitive to false information through in-context injection than
through learning-based injection, which severely challenges the reliability and
safety of LLMs even if all training data are trusty and correct. The above
findings raise the need for new false information defense algorithms to address
the global impact of false information, and new alignment algorithms to
unbiasedly lead LLMs to follow internal human values rather than superficial
patterns.
- Abstract(参考訳): chatgpt のような大規模言語モデル (llm) は、人工知能において注目を集め、社会やビジネスや科学といった様々な産業に大きな影響を与えている。
しかし、インターネットやテキストコーパスに虚偽情報が存在することは、llmの信頼性と安全性に重大なリスクをもたらし、偽情報がllmにどのように影響し拡散するかを理解する緊急の必要性を強調する。
本稿では, LLMにおいて偽情報が拡散し, 関連する応答にどう影響するかを, ソースオーソリティ, インジェクションパラダイム, 情報関連性の影響について, 一連の実験により検討する。
具体的には、4つの権威レベルの情報ソース(twitter、webブログ、ニュースレポート、研究論文)、2つの共通知識注入パラダイム(インコンテキストインジェクションと学習ベースのインジェクション)、3つの情報関連度(直接、間接、周辺)を比較した。
実験の結果,(1)誤情報は,意味拡散過程を通じてllm内の関連記憶を拡散・汚染する,すなわち,誤情報は直接的影響を超えた世界的な有害な影響を持つことが示された。
2)現在のLLMは、権限バイアスの影響を受けやすい、すなわち、LLMは、ニュースや研究論文のような信頼できるスタイルで提示された偽情報に従う傾向にあり、情報のより深くより広範な汚染を引き起こす。
3) 現在のLCMは, 学習ベースインジェクションよりも, 文脈内インジェクションによる偽情報に敏感であり, 全てのトレーニングデータが信頼でき, 正確であっても, LLMの信頼性と安全性を著しく損なう。
以上の知見は、虚偽情報のグローバルな影響に対処するための新たな虚偽情報防御アルゴリズムの必要性と、表面的パターンではなく、内部的人間的価値に従う新たなアライメントアルゴリズムの必要性を浮き彫りにしている。
関連論文リスト
- AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment [37.985947029716016]
大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。
関連判定におけるしきい値プライミング効果の影響について検討した。
論文 参考訳(メタデータ) (2024-09-24T12:23:15Z) - Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。
命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文 参考訳(メタデータ) (2024-08-20T10:26:02Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review [4.147674289030404]
大規模言語モデル(LLM)は、人間の認知と行動の側面をシミュレートする可能性がある。
LLMは、文献レビュー、仮説生成、実験的なデザイン、実験的な主題、データ分析、学術的な執筆、心理学におけるピアレビューのための革新的なツールを提供する。
データプライバシ、心理的研究にLLMを使うことの倫理的意味、モデルの制限をより深く理解する必要がある、といった問題があります。
論文 参考訳(メタデータ) (2024-01-03T03:01:29Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。