論文の概要: Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries
- arxiv url: http://arxiv.org/abs/2509.25498v1
- Date: Mon, 29 Sep 2025 20:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.320448
- Title: Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries
- Title(参考訳): ドキュメントベースのクエリにおけるLCMの過信
- Authors: Nick Hagar, Wilma Agustianto, Nicholas Diakopoulos,
- Abstract要約: 大型言語モデル(LLM)は、ニュースルームでますます使われている。
幻覚の傾向は、ソーシング、帰属、正確性といった中核的なジャーナリストの慣行にリスクをもたらす。
本稿では,ChatGPT,Gemini,NotebookLMの3つのツールについて検討する。
- 参考スコア(独自算出の注目度): 2.853035319109148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in newsroom workflows, but their tendency to hallucinate poses risks to core journalistic practices of sourcing, attribution, and accuracy. We evaluate three widely used tools - ChatGPT, Gemini, and NotebookLM - on a reporting-style task grounded in a 300-document corpus related to TikTok litigation and policy in the U.S. We vary prompt specificity and context size and annotate sentence-level outputs using a taxonomy to measure hallucination type and severity. Across our sample, 30% of model outputs contained at least one hallucination, with rates approximately three times higher for Gemini and ChatGPT (40%) than for NotebookLM (13%). Qualitatively, most errors did not involve invented entities or numbers; instead, we observed interpretive overconfidence - models added unsupported characterizations of sources and transformed attributed opinions into general statements. These patterns reveal a fundamental epistemological mismatch: While journalism requires explicit sourcing for every claim, LLMs generate authoritative-sounding text regardless of evidentiary support. We propose journalism-specific extensions to existing hallucination taxonomies and argue that effective newsroom tools need architectures that enforce accurate attribution rather than optimize for fluency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ニュースルームのワークフローでますます使われているが、その幻覚化傾向は、ソーシング、帰属、正確性といった中核的なジャーナリストの慣行にリスクをもたらす。
我々は,米国におけるTikTok訴訟及びポリシーに関連する300件の文書コーパスをベースとした報告スタイルのタスクにおいて,ChatGPT,Gemini,NotebookLMの3つの広く利用されているツールを評価した。
我々は, 素早い特異度と文脈サイズ, 注釈による文レベルのアウトプットを分類法を用いて測定し, 幻覚のタイプと重大度を測定した。
サンプル全体では、モデル出力の30%は少なくとも1つの幻覚を含んでおり、GeminiとChatGPTの40%はNotebookLMの13%よりも約3倍高い。
定性的には、ほとんどのエラーは発明された実体や数字を含まなかった。代わりに、我々は解釈的過信(interpretive overconfidence)を観察した。
これらのパターンは、基本的な認識論的ミスマッチを示している: ジャーナリズムはすべてのクレームに対して明示的なアウトソーシングを必要とするが、LCMは明らかな支持に関係なく権威的な音声を生成する。
既存の幻覚分類に対するジャーナリズム固有の拡張を提案し、効果的なニュースルームツールには、流布を最適化するのではなく、正確な帰属を強制するアーキテクチャが必要であると論じる。
関連論文リスト
- On-Premise AI for the Newsroom: Evaluating Small Language Models for Investigative Document Search [2.853035319109148]
検索拡張生成(RAG)機能を備えた大規模言語モデル(LLM)は、文書発見のプロセスの高速化を約束する。
我々は5段階のパイプラインを通して透明性と編集制御を優先するジャーナリスト中心の検索手法を提案する。
我々は2つのコーパス上で3つの量子化モデル(Gemma 3 12B, Qwen 3 14B, GPT-OSS 20B)を評価し,信頼性のかなりの変動を見出した。
論文 参考訳(メタデータ) (2025-09-29T20:50:40Z) - Evaluating Large Language Models as Expert Annotators [17.06186816803593]
本稿では,トップパフォーマンス言語モデルが,人間の専門家アノテータの直接的な代替として機能するかどうかを考察する。
我々は、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。
実験結果から,推定時間的手法を具備した個々のLSMは,限界あるいは負の利得しか示さないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-11T10:19:10Z) - The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts [29.95198868148809]
本稿では,プロのファクトチェッカーがアウトレット全体の事実と政治的偏見を評価するために使用する基準をエミュレートする新しい手法を提案する。
メディアの人気と地域がモデル性能に与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2025-06-14T15:49:20Z) - From Small to Large Language Models: Revisiting the Federalist Papers [0.0]
本稿では,よりポピュラーなLarge Language Model (LLM) ツールについてレビューし,テキスト分類の文脈における統計的観点から検討する。
本研究では, ファインチューンを使わずに, 一般的な埋め込み構造がスタイメトリーや属性に有用であるかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T21:50:46Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。