論文の概要: Mitigating Hallucinations in Zero-Shot Scientific Summarisation: A Pilot Study
- arxiv url: http://arxiv.org/abs/2512.00931v1
- Date: Sun, 30 Nov 2025 15:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.505603
- Title: Mitigating Hallucinations in Zero-Shot Scientific Summarisation: A Pilot Study
- Title(参考訳): ゼロショット科学要約における幻覚の緩和 : パイロットスタディ
- Authors: Imane Jaaouine, Ross D. King,
- Abstract要約: 大規模言語モデル(LLM)は、文脈の不整合幻覚を生成する。
本研究は,ゼロショットの科学的要約タスクにおいて,迅速な工学手法が文脈の不整合を軽減することができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) produce context inconsistency hallucinations, which are LLM generated outputs that are misaligned with the user prompt. This research project investigates whether prompt engineering (PE) methods can mitigate context inconsistency hallucinations in zero-shot LLM summarisation of scientific texts, where zero-shot indicates that the LLM relies purely on its pre-training data. Across eight yeast biotechnology research paper abstracts, six instruction-tuned LLMs were prompted with seven methods: a base- line prompt, two levels of increasing instruction complexity (PE-1 and PE-2), two levels of context repetition (CR-K1 and CR-K2), and two levels of random addition (RA-K1 and RA-K2). Context repetition involved the identification and repetition of K key sentences from the abstract, whereas random addition involved the repetition of K randomly selected sentences from the abstract, where K is 1 or 2. A total of 336 LLM-generated summaries were evaluated using six metrics: ROUGE-1, ROUGE-2, ROUGE-L, BERTScore, METEOR, and cosine similarity, which were used to compute the lexical and semantic alignment be- tween the summaries and the abstracts. Four hypotheses on the effects of prompt methods on summary alignment with the reference text were tested. Statistical analysis on 3744 collected datapoints was performed using bias-corrected and accelerated (BCa) bootstrap confidence intervals and Wilcoxon signed-rank tests with Bonferroni-Holm correction. The results demonstrated that CR and RA significantly improve the lexical alignment of LLM-generated summaries with the abstracts. These findings indicate that prompt engineering has the potential to impact hallucinations in zero-shot scientific summarisation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザプロンプトと不一致なLLM生成出力であるコンテキスト不整合幻覚を生成する。
本研究は,学術テキストのゼロショットLLM要約における文脈不整合幻覚を軽減するために,PE法が文脈不整合を緩和できるかどうかを考察する。
8種類の酵母バイオテクノロジー研究論文を要約し, ベースラインプロンプト (PE-1, PE-2) の2段階, コンテキスト反復 (CR-K1, CR-K2) の2段階, ランダム付加 (RA-K1, RA-K2) の2段階の7つの手法を指導した。
文脈反復は、抽象語からKキー文の識別と繰り返しを含むが、ランダム付加は、Kが1または2である抽象語からランダムに選択されたKキー文の繰り返しを含む。
ROUGE-1, ROUGE-2, ROUGE-L, BERTScore, METEOR, cosine similarityの6つの指標を用いて, 合計336個のLCM生成サマリーを評価した。
提案手法が参照テキストの要約アライメントに及ぼす影響を4つの仮説で検証した。
ボニフェロニ・ホルム補正法を用いて,3744個のデータポイントの統計解析をバイアス補正・加速(BCa)ブートストラップ信頼区間とウィルコクソンサインランク試験を用いて行った。
その結果, CRおよびRAは, LLM生成サマリーの語彙的アライメントと抽象的サマリーを有意に改善した。
これらの結果から,ゼロショットの科学的要約タスクにおいて,素早い工学が幻覚に影響を与える可能性が示唆された。
関連論文リスト
- Span-Level Hallucination Detection for LLM-Generated Answers [0.0]
本稿では,SemEval-2025共有タスクのための,英語とアラビア語のテキストに着目したスパンレベルの幻覚検出フレームワークを提案する。
提案手法はセマンティック・ロール・ラベルリング(SRL)を統合して解答をアトミック・ロールに分解し,抽出した参照コンテキストと比較する。
DeBERTaに基づくテキスト・エンテーメント・モデルを用いて,各ロールのセマンティック・アライメントと検索したコンテキストとのアライメントを評価する。
論文 参考訳(メタデータ) (2025-04-25T18:35:25Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Evaluating Factual Consistency of Summaries with Large Language Models [24.416837319515896]
大規模言語モデル(LLM)の直接的推進による要約の事実整合性の評価について検討する。
実験により, LLM のプロンプトは, 全ての設定において, 過去の最良事実性システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。