論文の概要: Towards Logically Consistent Language Models via Probabilistic Reasoning
- arxiv url: http://arxiv.org/abs/2404.12843v1
- Date: Fri, 19 Apr 2024 12:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:07:01.798780
- Title: Towards Logically Consistent Language Models via Probabilistic Reasoning
- Title(参考訳): 確率論的推論による論理的一貫性言語モデルに向けて
- Authors: Diego Calanzone, Stefano Teso, Antonio Vergari,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。
LLMは、非現実的な情報を生成し、世界の信念を推論するよう促されたときに矛盾する傾向がある。
我々は,LLMが事実やルールの集合という形で,外部知識と整合性を持つように教える学習目標を導入する。
- 参考スコア(独自算出の注目度): 14.317886666902822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are a promising venue for natural language understanding and generation tasks. However, current LLMs are far from reliable: they are prone to generate non-factual information and, more crucially, to contradict themselves when prompted to reason about beliefs of the world. These problems are currently addressed with large scale fine-tuning or by delegating consistent reasoning to external tools. In this work, we strive for a middle ground and introduce a training objective based on principled probabilistic reasoning that teaches a LLM to be consistent with external knowledge in the form of a set of facts and rules. Fine-tuning with our loss on a limited set of facts enables our LLMs to be more logically consistent than previous baselines and allows them to extrapolate to unseen but semantically similar factual knowledge more systematically.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。
しかし、現在のLLMは信頼性に欠けており、非現実的な情報を生成する傾向にあり、より重要なことは、世界の信念を推論するよう促されたときに、自分自身を矛盾させる傾向がある。
これらの問題は現在、大規模な微調整や、外部ツールへの一貫した推論によって対処されている。
本研究は,中堅な分野を目指して,原則的確率論的推論に基づく学習目標を導入し,一組の事実と規則の形で,LLMが外部知識と整合性を持つように教える。
限られた事実の集合を微調整することで、LCMは以前のベースラインよりも論理的に一貫した状態になり、目に見えないが意味的に類似した事実知識を体系的に外挿することができる。
関連論文リスト
- Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Limits for Learning with Language Models [4.20859414811553]
大規模言語モデル(LLM)がボレル階層の第一段階を超えて概念を学習できないことを示す。
LLMは、細部と深い言語的理解を必要とするタスクについて、正式な保証なしに運用を続ける。
論文 参考訳(メタデータ) (2023-06-21T12:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。