論文の概要: Hallucination or Creativity: How to Evaluate AI-Generated Scientific Stories?
- arxiv url: http://arxiv.org/abs/2602.02290v1
- Date: Mon, 02 Feb 2026 16:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.291862
- Title: Hallucination or Creativity: How to Evaluate AI-Generated Scientific Stories?
- Title(参考訳): 幻覚か創造か:AIによる科学的ストーリーを評価するには?
- Authors: Alex Argese, Pasquale Lisena, Raphaël Troncy,
- Abstract要約: 本稿では,AI生成した科学的ストーリを評価するための複合メトリックであるStoryScoreを提案する。
StoryScoreはセマンティックアライメント、語彙的接地、物語制御、構造的忠実性、冗長性回避、実体レベルの幻覚検出を統合している。
- 参考スコア(独自算出の注目度): 0.5349058473848842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI can turn scientific articles into narratives for diverse audiences, but evaluating these stories remains challenging. Storytelling demands abstraction, simplification, and pedagogical creativity-qualities that are not often well-captured by standard summarization metrics. Meanwhile, factual hallucinations are critical in scientific contexts, yet, detectors often misclassify legitimate narrative reformulations or prove unstable when creativity is involved. In this work, we propose StoryScore, a composite metric for evaluating AI-generated scientific stories. StoryScore integrates semantic alignment, lexical grounding, narrative control, structural fidelity, redundancy avoidance, and entity-level hallucination detection into a unified framework. Our analysis also reveals why many hallucination detection methods fail to distinguish pedagogical creativity from factual errors, highlighting a key limitation: while automatic metrics can effectively assess semantic similarity with original content, they struggle to evaluate how it is narrated and controlled.
- Abstract(参考訳): 生成的AIは、科学論文を多様なオーディエンスのための物語に変えることができるが、これらのストーリーを評価することは依然として難しい。
ストーリーテリングは抽象化、単純化、教育的な創造性-品質を要求します。
一方、事実の幻覚は科学的な文脈では重要であるが、検知器は正統な物語の修正を誤って分類したり、創造性に関わると不安定を証明したりすることが多い。
本研究では,AI生成した科学的ストーリを評価するための複合指標であるStoryScoreを提案する。
StoryScoreはセマンティックアライメント、語彙的接地、物語制御、構造的忠実性、冗長性回避、エンティティレベルの幻覚検出を統一されたフレームワークに統合する。
我々の分析は、多くの幻覚検出手法が、教育的創造性を事実的誤りと区別できない理由を明らかにし、重要な限界を強調している: 自動メトリクスは、オリジナルコンテンツと意味的類似性を効果的に評価できるが、どのように語り、制御されているかを評価するのに苦労している。
関連論文リスト
- Incentives or Ontology? A Structural Rebuttal to OpenAI's Hallucination Thesis [0.42970700836450487]
我々は、幻覚は最適化の失敗ではなく、トランスフォーマーモデルのアーキテクチャ上の必然性であると主張している。
実験の結果,幻覚は,外的真理検証と禁忌モジュールによってのみ除去できることが示唆された。
幻覚は生成的アーキテクチャの構造的特性であると結論付けている。
論文 参考訳(メタデータ) (2025-12-16T17:39:45Z) - How Large Language Models are Designed to Hallucinate [0.42970700836450487]
幻覚はトランスフォーマーアーキテクチャの構造的な結果であると主張する。
本研究の貢献は,(1) 既存の説明が不十分な理由を示す比較説明,(2) 提案されたベンチマークによる実存的構造に関連付けられた幻覚の予測分類,(3) 開示の欠如を抑えることの可能な「真理に制約された」アーキテクチャへの設計方針,の3つである。
論文 参考訳(メタデータ) (2025-09-19T16:46:27Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Does the Generator Mind its Contexts? An Analysis of Generative Model
Faithfulness under Context Transfer [42.081311699224585]
本研究は,文脈知識に根ざした情報を生成するための知識増強ジェネレータについて紹介する。
我々の目的は、文脈的知識が変化した際のパラメトリック記憶から生じる幻覚の存在を探ることである。
論文 参考訳(メタデータ) (2024-02-22T12:26:07Z) - Do Androids Know They're Only Dreaming of Electric Sheep? [45.513432353811474]
我々は,その幻覚行動を予測するために,トランスフォーマー言語モデルの内部表現を訓練したプローブを設計する。
我々の探査機は訓練が狭く、訓練領域に敏感であることが分かりました。
モデル状態が利用可能である場合,探索は言語モデル幻覚評価に代わる実現可能かつ効率的な代替手段であることが判明した。
論文 参考訳(メタデータ) (2023-12-28T18:59:50Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - Inspecting the Factuality of Hallucinated Entities in Abstractive
Summarization [36.052622624166894]
State-of-the-art abstractive summarization system(最先端の抽象的な要約システム)は、しばしば、源文から直接推測できない内容(Emphhallucination)を生成する。
本研究では,実体の非現実的幻覚から事実を分離する新たな検出手法を提案する。
論文 参考訳(メタデータ) (2021-08-30T15:40:52Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。