Fugu-MT 論文翻訳(概要): Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation

論文の概要: Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation

arxiv url: http://arxiv.org/abs/2305.15852v2
Date: Sun, 1 Oct 2023 07:22:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:32:39.992064
Title: Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation
Title（参考訳）: 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和
Authors: Niels M\"undler, Jingxuan He, Slobodan Jenko, Martin Vechev
Abstract要約: 大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
参考スコア（独自算出の注目度）: 5.509730499143998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (large LMs) are susceptible to producing text that contains hallucinated content. An important instance of this problem is self-contradiction, where the LM generates two contradictory sentences within the same context. In this work, we present a comprehensive investigation into self-contradiction for various instruction-tuned LMs, covering evaluation, detection, and mitigation. Our analysis reveals the prevalence of self-contradictions when LMs generate text for open-domain topics, e.g., in 17.7% of all sentences produced by ChatGPT. Self-contradiction also complements retrieval-based methods, as a large portion of them (e.g., 35.8% for ChatGPT) cannot be verified using Wikipedia. We then propose a novel prompting-based framework designed to effectively detect and mitigate self-contradictions. Our detector achieves high accuracy, e.g., around 80% F1 score when prompting ChatGPT. The mitigation algorithm iteratively refines the generated text to remove contradictory information while preserving text fluency and informativeness. Importantly, our entire framework is applicable to black-box LMs and does not require external grounded knowledge. Our approach is practically effective and has been released as a push-button tool to benefit the public, available at https://chatprotect.ai/.
Abstract（参考訳）: 大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。この問題の重要な例は自己矛盾であり、LMは同じ文脈内で2つの矛盾する文を生成する。本研究は,各種命令調整型LMの自己コントラクションに関する包括的調査を行い,評価,検出,緩和について述べる。本分析では,ChatGPTが生成する全文の17.7%において,LMがオープンドメイントピックのテキストを生成する場合の自己矛盾の頻度を明らかにする。セルフコントラディションは検索ベースの手法を補完するものであり、その大部分が(例えばChatGPTの35.8%)ウィキペディアでは検証できない。そこで我々は,自己矛盾を効果的に検出し緩和する新しいプロンプトベースフレームワークを提案する。我々の検出器は、ChatGPTを誘導するときに80%のF1スコアを達成する。緩和アルゴリズムは、生成したテキストを反復的に洗練し、テキストの流布や報知性を保ちながら矛盾する情報を除去する。重要なことは、我々のフレームワーク全体がブラックボックスのLMに適用でき、外部の基盤知識を必要としないことである。私たちのアプローチは事実上効果的で、公開のためにプッシュボタンツールとしてリリースされています。

関連論文リスト

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T01:15:07Z)
ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文参考訳（メタデータ） (2024-09-22T01:13:22Z)
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文参考訳（メタデータ） (2024-06-15T21:57:03Z)
DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文参考訳（メタデータ） (2023-11-08T21:13:05Z)
Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。自然言語処理(NLP)技術を用いた新しい手法を提案する。与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文参考訳（メタデータ） (2023-06-13T20:34:55Z)
Towards a Robust Detection of Language Model Generated Text: Is ChatGPT that Easy to Detect? [0.0]
本稿では,フランス語テキストのためのChatGPT検出器の開発と評価手法を提案する。提案手法では、英文データセットをフランス語に翻訳し、翻訳されたデータに基づいて分類器を訓練する。その結果, 検出器はChatGPT生成テキストを効果的に検出でき, ドメイン内設定における基本的な攻撃手法に対する堅牢性も高いことがわかった。
論文参考訳（メタデータ） (2023-06-09T13:03:53Z)
DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文参考訳（メタデータ） (2023-05-21T17:26:16Z)
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (2023-03-27T22:30:39Z)
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文参考訳（メタデータ） (2023-03-15T19:31:21Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。従来の検出方法は、相手文に対して正しい予測を与えることができない。本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文参考訳（メタデータ） (2023-02-03T22:58:07Z)
TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文参考訳（メタデータ） (2020-10-12T22:22:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。