Fugu-MT 論文翻訳(概要): Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation

論文の概要: Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation

arxiv url: http://arxiv.org/abs/2305.15852v1
Date: Thu, 25 May 2023 08:43:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 16:15:10.707783
Title: Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation
Title（参考訳）: 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和
Authors: Niels M\"undler, Jingxuan He, Slobodan Jenko, Martin Vechev
Abstract要約: 大規模な言語モデル(より大きなLM)は、幻覚された内容のテキストを生成することに感受性がある。自己矛盾(Self-contradiction)とは、LMが同じ文脈内で2つの矛盾した文を生成することであり、幻覚の重要な形態である。本稿では,最先端の命令調整型LMの自己コントラクションに関する包括的分析を行う。
参考スコア（独自算出の注目度）: 4.014524824655106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (large LMs) are susceptible to producing text with hallucinated content. Self-contradiction, where the LM generates two contradictory sentences within the same context, is an important form of hallucination. In this work, we present a comprehensive analysis on self-contradiction for state-of-the-art, instruction-tuned LMs, including evaluation, detection, and mitigation. To effectively trigger self-contradictions, we design a framework that constrains LMs to generate appropriate sentence pairs. Our evaluation on these sentence pairs reveals that self-contradictions occur frequently across different LMs for both famous and lesser-known topics. Next, we prompt the LMs to detect self-contradictions. Our results indicate that ChatGPT and GPT-4 are able to accurately identify self-contradictions, while Vicuna-13B struggles to do so. For example, with our best prompting method, ChatGPT achieves 91.0% precision and 80.5% recall on the sentence pairs generated by itself. To automatically mitigate self-contradictions, we develop an iterative algorithm that prompts the LMs to remove the detected self-contradictions from the generated text. Our algorithm successfully revises the text such that self-contradictions are significantly reduced, while maintaining its fluency and informativeness. Importantly, our entire pipeline of triggering, detecting, and mitigating self-contradictions is applicable to black-box LMs and does not require any external grounded knowledge.
Abstract（参考訳）: 大きな言語モデル(大きなlms)は幻覚的な内容を持つテキストを生成しやすい。自己矛盾(self-contradiction)は、lmが同じ文脈で2つの矛盾した文を生成する場合に、幻覚の重要な形態である。本稿では, 評価, 検出, 緩和を含む, 最先端, 命令調整されたlmmのための自己コントラストに関する包括的解析を行う。自己矛盾を効果的に引き起こすために,適切な文ペアを生成するためにLMを制約するフレームワークを設計する。これらの文対について評価した結果,有名・あまり知られていない話題に対して,異なるLM間で自己矛盾が頻繁に発生することがわかった。次に、lmsに自己矛盾を検出するよう促す。その結果,chatgpt と gpt-4 は自己矛盾を正確に識別できるが,vicuna-13b ではそれが難しいことがわかった。例えば、最高のプロンプト手法によって、chatgptは91.0%の精度と80.5%のリコールを達成します。自己矛盾を自動的に軽減するために, LMが検出した自己矛盾を生成テキストから除去するよう促す反復アルゴリズムを開発した。提案アルゴリズムは, 自己矛盾が著しく低減されるようにテキストの修正に成功し, 拡散率と情報性を維持した。重要なことは、我々の自己矛盾を誘発、検出、緩和するパイプライン全体がブラックボックスのLMに適用でき、外部の基盤知識は不要である。

関連論文リスト

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T01:15:07Z)
ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文参考訳（メタデータ） (2024-09-22T01:13:22Z)
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文参考訳（メタデータ） (2024-06-15T21:57:03Z)
DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文参考訳（メタデータ） (2023-11-08T21:13:05Z)
Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。自然言語処理(NLP)技術を用いた新しい手法を提案する。与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文参考訳（メタデータ） (2023-06-13T20:34:55Z)
Towards a Robust Detection of Language Model Generated Text: Is ChatGPT that Easy to Detect? [0.0]
本稿では,フランス語テキストのためのChatGPT検出器の開発と評価手法を提案する。提案手法では、英文データセットをフランス語に翻訳し、翻訳されたデータに基づいて分類器を訓練する。その結果, 検出器はChatGPT生成テキストを効果的に検出でき, ドメイン内設定における基本的な攻撃手法に対する堅牢性も高いことがわかった。
論文参考訳（メタデータ） (2023-06-09T13:03:53Z)
DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文参考訳（メタデータ） (2023-05-21T17:26:16Z)
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (2023-03-27T22:30:39Z)
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文参考訳（メタデータ） (2023-03-15T19:31:21Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。従来の検出方法は、相手文に対して正しい予測を与えることができない。本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文参考訳（メタデータ） (2023-02-03T22:58:07Z)
TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文参考訳（メタデータ） (2020-10-12T22:22:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。