論文の概要: Self-contradictory Hallucinations of Large Language Models: Evaluation,
Detection and Mitigation
- arxiv url: http://arxiv.org/abs/2305.15852v1
- Date: Thu, 25 May 2023 08:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:15:10.707783
- Title: Self-contradictory Hallucinations of Large Language Models: Evaluation,
Detection and Mitigation
- Title(参考訳): 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和
- Authors: Niels M\"undler, Jingxuan He, Slobodan Jenko, Martin Vechev
- Abstract要約: 大規模な言語モデル(より大きなLM)は、幻覚された内容のテキストを生成することに感受性がある。
自己矛盾(Self-contradiction)とは、LMが同じ文脈内で2つの矛盾した文を生成することであり、幻覚の重要な形態である。
本稿では,最先端の命令調整型LMの自己コントラクションに関する包括的分析を行う。
- 参考スコア(独自算出の注目度): 4.014524824655106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (large LMs) are susceptible to producing text with
hallucinated content. Self-contradiction, where the LM generates two
contradictory sentences within the same context, is an important form of
hallucination. In this work, we present a comprehensive analysis on
self-contradiction for state-of-the-art, instruction-tuned LMs, including
evaluation, detection, and mitigation. To effectively trigger
self-contradictions, we design a framework that constrains LMs to generate
appropriate sentence pairs. Our evaluation on these sentence pairs reveals that
self-contradictions occur frequently across different LMs for both famous and
lesser-known topics. Next, we prompt the LMs to detect self-contradictions. Our
results indicate that ChatGPT and GPT-4 are able to accurately identify
self-contradictions, while Vicuna-13B struggles to do so. For example, with our
best prompting method, ChatGPT achieves 91.0% precision and 80.5% recall on the
sentence pairs generated by itself. To automatically mitigate
self-contradictions, we develop an iterative algorithm that prompts the LMs to
remove the detected self-contradictions from the generated text. Our algorithm
successfully revises the text such that self-contradictions are significantly
reduced, while maintaining its fluency and informativeness. Importantly, our
entire pipeline of triggering, detecting, and mitigating self-contradictions is
applicable to black-box LMs and does not require any external grounded
knowledge.
- Abstract(参考訳): 大きな言語モデル(大きなlms)は幻覚的な内容を持つテキストを生成しやすい。
自己矛盾(self-contradiction)は、lmが同じ文脈で2つの矛盾した文を生成する場合に、幻覚の重要な形態である。
本稿では, 評価, 検出, 緩和を含む, 最先端, 命令調整されたlmmのための自己コントラストに関する包括的解析を行う。
自己矛盾を効果的に引き起こすために,適切な文ペアを生成するためにLMを制約するフレームワークを設計する。
これらの文対について評価した結果,有名・あまり知られていない話題に対して,異なるLM間で自己矛盾が頻繁に発生することがわかった。
次に、lmsに自己矛盾を検出するよう促す。
その結果,chatgpt と gpt-4 は自己矛盾を正確に識別できるが,vicuna-13b ではそれが難しいことがわかった。
例えば、最高のプロンプト手法によって、chatgptは91.0%の精度と80.5%のリコールを達成します。
自己矛盾を自動的に軽減するために, LMが検出した自己矛盾を生成テキストから除去するよう促す反復アルゴリズムを開発した。
提案アルゴリズムは, 自己矛盾が著しく低減されるようにテキストの修正に成功し, 拡散率と情報性を維持した。
重要なことは、我々の自己矛盾を誘発、検出、緩和するパイプライン全体がブラックボックスのLMに適用でき、外部の基盤知識は不要である。
関連論文リスト
- ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - Towards a Robust Detection of Language Model Generated Text: Is ChatGPT
that Easy to Detect? [0.0]
本稿では,フランス語テキストのためのChatGPT検出器の開発と評価手法を提案する。
提案手法では、英文データセットをフランス語に翻訳し、翻訳されたデータに基づいて分類器を訓練する。
その結果, 検出器はChatGPT生成テキストを効果的に検出でき, ドメイン内設定における基本的な攻撃手法に対する堅牢性も高いことがわかった。
論文 参考訳(メタデータ) (2023-06-09T13:03:53Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。