論文の概要: UNCLE: Uncertainty Expressions in Long-Form Generation
- arxiv url: http://arxiv.org/abs/2505.16922v1
- Date: Thu, 22 May 2025 17:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.48814
- Title: UNCLE: Uncertainty Expressions in Long-Form Generation
- Title(参考訳): UNCLE: 長期世代における不確実性表現
- Authors: Ruihan Yang, Caiqi Zhang, Zhisong Zhang, Xinting Huang, Dong Yu, Nigel Collier, Deqing Yang,
- Abstract要約: 大型言語モデル(LLM)は幻覚を起こす傾向があり、特に長期の世代では顕著である。
長文と短文の問合せ(QA)における不確実性評価のためのベンチマークであるUNCLEを紹介する。
私たちのデータセットは、ペアの質問とゴールドスタンダードの回答で、ショートとロングフォームのQAを直接ブリッジする最初のものです。
- 参考スコア(独自算出の注目度): 48.7696074873262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are prone to hallucination, particularly in long-form generations. A promising direction to mitigate hallucination is to teach LLMs to express uncertainty explicitly when they lack sufficient knowledge. However, existing work lacks direct and fair evaluation of LLMs' ability to express uncertainty effectively in long-form generation. To address this gap, we first introduce UNCLE, a benchmark designed to evaluate uncertainty expression in both long- and short-form question answering (QA). UNCLE spans five domains and comprises 4k long-form QA instances and over 20k short-form QA pairs. Our dataset is the first to directly bridge short- and long-form QA with paired questions and gold-standard answers. Along with the benchmark, we propose a suite of new metrics to assess the models' capabilities to selectively express uncertainty. Using UNCLE, we then demonstrate that current models fail to convey uncertainty appropriately in long-form generation. We further explore both prompt-based and training-based methods to improve models' performance, with the training-based methods yielding greater gains. Further analysis of alignment gaps between short- and long-form uncertainty expression highlights promising directions for future research using UNCLE.
- Abstract(参考訳): 大型言語モデル(LLM)は幻覚を起こす傾向があり、特に長期の世代では顕著である。
幻覚を緩和するための有望な方向性は、LLMに十分な知識が不足している場合に、不確実性を明確に表現するように教えることである。
しかし,LLMが長期的生成において効果的に不確実性を表現する能力について,直接的かつ公平な評価が得られていない。
このギャップに対処するために、我々はまず、長文と短文の問合せ(QA)における不確実性表現を評価するために設計されたベンチマークUNCLEを紹介する。
UNCLEは5つのドメインにまたがり、4kの長文QAインスタンスと20k以上の短文QAペアで構成される。
私たちのデータセットは、ペアの質問とゴールドスタンダードの回答で、ショートとロングフォームのQAを直接ブリッジする最初のものです。
ベンチマークとともに、不確実性を選択的に表現するモデルの能力を評価するための一連の新しい指標を提案する。
そして、UNCLEを用いて、現在のモデルが長文生成において不確実性を適切に伝達できないことを示す。
さらに、モデルの性能を改善するために、プロンプトベースとトレーニングベースの両方の手法を検討する。
ショートフォームとロングフォームの不確実性表現間のアライメントギャップのさらなる解析は、UNCLEを用いた将来の研究の有望な方向性を浮き彫りにする。
関連論文リスト
- Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
本研究では,人間のアノテーションを使わずに,大規模言語モデル(LLM)の短文および長文生成タスクにおける忠実度を改善するための体系的フレームワークであるCANOEを提案する。
また,ルールに基づく強化学習手法であるDual-GRPOを提案する。
実験結果から,CANOEは11の下流タスクにまたがるLLMの忠実度を大幅に向上し,最も先進的なLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance [33.16322104912836]
大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。
LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。
人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
論文 参考訳(メタデータ) (2025-04-13T14:12:14Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。
この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。
不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。
我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:49:24Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。