論文の概要: Mary, the Cheeseburger-Eating Vegetarian: Do LLMs Recognize Incoherence in Narratives?
- arxiv url: http://arxiv.org/abs/2512.07777v1
- Date: Mon, 08 Dec 2025 17:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.993691
- Title: Mary, the Cheeseburger-Eating Vegetarian: Do LLMs Recognize Incoherence in Narratives?
- Title(参考訳): Mary, the Cheeseburger-Eating Vegetarian: Do LLMs Recognize Incoherence in Narratives?
- Authors: Karin de Langis, Püren Öncel, Ryan Peters, Andrew Elfenbein, Laura Kristen Allen, Andreas Schramm, Dongyeop Kang,
- Abstract要約: 本研究では,大規模言語モデル(LLM)が不整合性と一貫性のあるストーリを確実に分離できる範囲について検討する。
LLMは、一貫性と一貫性のない物語を十分に分離できない評価質問に対する応答を生成する。
- 参考スコア(独自算出の注目度): 16.08138269588599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging a dataset of paired narratives, we investigate the extent to which large language models (LLMs) can reliably separate incoherent and coherent stories. A probing study finds that LLMs' internal representations can reliably identify incoherent narratives. However, LLMs generate responses to rating questions that fail to satisfactorily separate the coherent and incoherent narratives across several prompt variations, hinting at a gap in LLM's understanding of storytelling. The reasoning LLMs tested do not eliminate these deficits, indicating that thought strings may not be able to fully address the discrepancy between model internal state and behavior. Additionally, we find that LLMs appear to be more sensitive to incoherence resulting from an event that violates the setting (e.g., a rainy day in the desert) than to incoherence arising from a character violating an established trait (e.g., Mary, a vegetarian, later orders a cheeseburger), suggesting that LLMs may rely more on prototypical world knowledge than building meaning-based narrative coherence. The consistent asymmetry found in our results suggests that LLMs do not have a complete grasp on narrative coherence.
- Abstract(参考訳): ペア物語のデータセットを活用することで,大規模言語モデル(LLM)が不整合性と一貫性のあるストーリを確実に分離できる範囲について検討する。
調査研究により、LLMの内部表現は、一貫性のない物語を確実に識別できることがわかった。
しかし、LCMは評価質問に対する応答を生成し、一貫性と一貫性のない物語をいくつかの急激なバリエーションに分けることができず、LCMのストーリーテリングに対する理解のギャップを示唆している。
LLMがテストした理由はこれらの欠点を排除していないため、思考文字列はモデルの内部状態と振舞いの相違を完全に解決できない可能性がある。
さらに, LLMは, 定着した形質に反する性格(例えば, 菜食主義者のメアリーが後にチーズバーガーを注文するなど)から生じる一貫性に反する事象(例えば砂漠の雨の日)によって生じる不整合に対して, より敏感であることが明らかとなり, 意味に基づく物語コヒーレンスを構築するよりも, 先例的な世界知識に頼っている可能性が示唆された。
その結果,LLMは物語のコヒーレンスを完全に把握していないことが示唆された。
関連論文リスト
- Large Language Models Do NOT Really Know What They Don't Know [37.641827402866845]
最近の研究は、大言語モデル(LLM)が、その内部表現に事実性信号をエンコードしていることを示唆している。
LLMは、ショートカットやスプリアスアソシエーションに頼ることで、事実エラーを発生させることもできる。
論文 参考訳(メタデータ) (2025-10-10T06:09:04Z) - SelfReflect: Can LLMs Communicate Their Internal Answer Distribution? [21.270758668026023]
我々は,要約と回答上の分布の間の情報理論的距離であるSelfReflectメトリックを開発した。
我々は,SelfReflectが,要約文字列と LLM の内部分布の回答に対する忠実度を細かな尺度で表していることを示す。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - One vs. Many: Comprehending Accurate Information from Multiple Erroneous and Inconsistent AI Generations [47.669923625184644]
大規模言語モデル(LLM)は非決定論的であり、同じ入力は異なる出力を生成することができる。
本研究では、ユーザがAIモデルをどのように認識し、複数の、潜在的に一貫性のない出力を受け取る際に生成された情報を理解するかを検討する。
論文 参考訳(メタデータ) (2024-05-09T07:12:45Z) - "Sorry, Come Again?" Prompting -- Enhancing Comprehension and Diminishing Hallucination with [PAUSE]-injected Optimal Paraphrasing [10.20632187568563]
幻覚は現代大言語モデル(LLM)の最も脆弱な側面として現れてきた。
本稿では,LCMの幻覚を避けることを目的としたSCAプロンプトについて紹介する。
本稿では,21のLLMに対するプロンプトの形式性,可読性,具体性について,言語的ニュアンスを詳細に分析する。
与えられたプロンプトの最も理解しやすいパラフレーズを識別する最適なパラフレーズ化手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T19:45:09Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。