論文の概要: When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation
- arxiv url: http://arxiv.org/abs/2602.11908v1
- Date: Thu, 12 Feb 2026 13:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.820474
- Title: When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation
- Title(参考訳): LLMはいつ、あまり具体的でないべきなのか? 信頼性のある長文生成のための選択的抽象化
- Authors: Shani Goren, Ido Galil, Ran El-Yaniv,
- Abstract要約: Selective Abstraction(SA)は、LLMが信頼性のために特異性を交換できるフレームワークである。
我々は,リスクを事実的正当性としてインスタンス化する,オープンエンドな生成のための新しいエンドツーエンドパイプラインを開発した。
FactScoreとLongFact-Objectsベンチマークの6つのオープンソースモデルにおいて、atom-wise SAは既存のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 13.218758523354103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are widely used, yet they remain prone to factual errors that erode user trust and limit adoption in high-risk settings. One approach to mitigate this risk is to equip models with uncertainty estimation mechanisms that abstain when confidence is low. However, this binary "all-or-nothing" approach is excessively restrictive in long-form settings, often discarding valuable information. We introduce Selective Abstraction (SA), a framework that enables LLMs to trade specificity for reliability by selectively reducing the detail of uncertain content. We first formalize SA through the lenses of selective risk and coverage. We then propose Atom-wise Selective Abstraction, a claim-level instantiation that decomposes responses into atomic claims (short, self-contained statements each expressing a single fact) and replaces uncertain atoms with higher confidence, less specific abstractions. To evaluate this framework, we develop a novel end-to-end pipeline for open-ended generation that instantiates risk as factual correctness and measures coverage using an information-theoretic measure of retained information. Across six open-source models on the FactScore and LongFact-Objects benchmarks, atom-wise SA consistently outperforms existing baselines, improving the area under the risk-coverage curve (AURC) by up to 27.73% over claim removal, demonstrating that reducing specificity can boost accuracy and reliability while preserving most of their original meaning.
- Abstract(参考訳): LLMは広く使用されているが、ユーザ信頼が損なわれ、リスクの高い設定での採用が制限されるような、現実的なエラーが生じる傾向にある。
このリスクを軽減する1つのアプローチは、信頼度が低いときに持続する不確実性推定機構をモデルに装備することである。
しかしながら、このバイナリな"オール・オア・ナッシング"アプローチは、長い形式の設定では過度に制限され、しばしば貴重な情報を捨てる。
Selective Abstraction(SA)は、LLMが不確実なコンテンツの詳細を選択的に減らし、信頼性のために特異性を交換できるフレームワークである。
まず,選択的リスクとカバレッジのレンズを用いてSAを定式化する。
次に、Atom-wise Selective Abstractionを提案します。これは、応答を原子クレームに分解するクレームレベルのインスタンス化(短い、自己完結したステートメントでそれぞれ1つの事実を表現します)で、不確実な原子を高い信頼性で、より具体的な抽象化で置き換えます。
この枠組みを評価するため、我々は、リスクを事実的正当性としてインスタンス化し、保持情報の情報理論的尺度を用いてカバレッジを測定する、オープン・エンド・エンド・エンド・パイプラインを開発した。
FactScoreとLongFact-Objectsベンチマークの6つのオープンソースモデルにおいて、Atom-wise SAは既存のベースラインを一貫して上回り、リスクカバレッジ曲線(AURC)の下での領域を27.73%まで改善し、特異性を減らすことで、元の意味の多くを保ちながら精度と信頼性を向上できることを示した。
関連論文リスト
- LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Rethinking LLM Parametric Knowledge as Post-retrieval Confidence for Dynamic Retrieval and Reranking [23.1400319714807]
大規模言語モデル(LLM)は、知識の範囲を超えて疑問に直面したとき、しばしば不正確な応答(幻覚)を生成する。
Retrieval-Augmented Generation (RAG)は、外部知識を活用することでこの問題に対処するが、重要な課題は、検索されたコンテキストが特定のクエリに応答する能力を効果的に強化するかどうかである。
この課題は知識境界認識の重要性を浮き彫りにしており、これは現在の手法が個別のラベルや限られた信号障害に適切に対処する方法である。
論文 参考訳(メタデータ) (2025-09-08T09:37:20Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Extending Epistemic Uncertainty Beyond Parameters Would Assist in Designing Reliable LLMs [40.7342896954488]
我々は、不確実性を推論し、不確実性の再現性を明確化するコヒーレントな基盤を提供する枠組みの採用を提唱する。
受動的回避よりも能動的解決をサポートすることで、より信頼性が高く透明で広く適用可能なLCMシステムへの扉を開くことができる。
論文 参考訳(メタデータ) (2025-06-09T05:52:03Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。