論文の概要: Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown
- arxiv url: http://arxiv.org/abs/2411.15993v1
- Date: Sun, 24 Nov 2024 22:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:46.231878
- Title: Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown
- Title(参考訳): 長文テキスト生成におけるファクチュアリティの調査 : 自己知識と自己未知の役割
- Authors: Lifu Tu, Rui Meng, Shafiq Joty, Yingbo Zhou, Semih Yavuz,
- Abstract要約: 様々な大言語モデル(LLM)における長文テキスト生成の事実性について検討する。
分析の結果, 文末文では事実性スコアが低下傾向にあり, 支持請求件数が増加傾向にあることが明らかとなった。
高い自己知識スコアと改善された事実性との間には相関関係がみられ,高い自己未知スコアは低い事実性と関連している。
- 参考スコア(独自算出の注目度): 55.91887554462312
- License:
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in text understanding and generation. However, they often lack factuality, producing a mixture of true and false information, especially in long-form generation. In this work, we investigates the factuality of long-form text generation across various large language models (LLMs), including GPT-4, Gemini-1.5-Pro, Claude-3-Opus, Llama-3-70B, and Mistral. Our analysis reveals that factuality scores tend to decline in later sentences of the generated text, accompanied by a rise in the number of unsupported claims. Furthermore, we explore the effectiveness of different evaluation settings to assess whether LLMs can accurately judge the correctness of their own outputs: Self-Known (the percentage of supported atomic claims, decomposed from LLM outputs, that the corresponding LLMs judge as correct) and Self-Unknown (the percentage of unsupported atomic claims that the corresponding LLMs judge as incorrect). The results indicate that even advanced models like GPT-4 and Gemini-1.5-Pro fail to achieve perfect Self-Known scores, while their Self-Unknown scores remain notably above zero, reflecting ongoing uncertainty in their self-assessments. Moreover, we find a correlation between higher Self-Known scores and improved factuality, while higher Self-Unknown scores are associated with lower factuality. Interestingly, even without significant changes in the models' self-judgment (Self-Known and Self-Unknown), the number of unsupported claims can increases, likely as an artifact of long-form generation. These findings show the limitations of current LLMs in long-form generation, and provide valuable insights for improving factuality in long-form text generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト理解と生成において強力な能力を示している。
しかし、それらは事実を欠くことが多く、特に長文生成において真と偽の情報が混ざり合っている。
本稿では,GPT-4,Gemini-1.5-Pro,Claude-3-Opus,Llama-3-70B,Mistralなど,さまざまな大規模言語モデル(LLM)における長文生成の事実について検討する。
分析の結果, 文末文では事実性スコアが低下傾向にあり, 支持請求件数が増加傾向にあることが明らかとなった。
さらに, LLM が自身の出力の正しさを正確に判断できるかどうかを評価するために, 異なる評価設定の有効性を検討する。
その結果、GPT-4やGemini-1.5-Proのような先進的なモデルでさえ完全な自己知識スコアを達成することができず、自己認識スコアは明らかにゼロを超えており、自己評価の不確実性を反映していることがわかった。
さらに,高い自己知識スコアと改善された事実性との間に相関関係がみられ,高い自己知識スコアは低い事実性と関連していることがわかった。
興味深いことに、モデルの自己判断(Self-KnownとSelf-Unknown)に大きな変化がなくても、サポート対象のクレームの数が増加し、おそらくは長文生成の成果物となる。
これらの結果は、長文生成における現在のLLMの限界を示し、長文生成における事実性向上に有用な洞察を提供する。
関連論文リスト
- Large Language Models have Intrinsic Self-Correction Ability [18.79203446847577]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な能力に対して大きな注目を集めている。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - What Large Language Models Know and What People Think They Know [13.939511057660013]
大規模言語モデル(LLM)は意思決定プロセスに統合されつつある。
人間の信頼を得るためには、LSMは正確に評価し、正しい予測の可能性を伝達できるように、適切に校正されなければならない。
ここでは, LLM生成回答における人間の信頼度とモデルの実際の信頼度との差を示すキャリブレーションギャップと, 人間とモデルが正解と誤解をいかによく区別できるかを反映した識別ギャップについて検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。