論文の概要: Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning
- arxiv url: http://arxiv.org/abs/2502.20620v1
- Date: Fri, 28 Feb 2025 00:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:39.140028
- Title: Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning
- Title(参考訳): 学習からハーネスLLMの推論への学習による信念空間の定式化
- Authors: Ayana Niwa, Masahiro Kaneko, Kentaro Inui,
- Abstract要約: 本研究では,真の信念を同時に拡張しつつ,素早い信念を抑えることによって信念空間を是正する手法を提案する。
提案手法はまず, モデルに文章の説明文を生成するように促すことにより, 誤った解答につながる信念を同定する。
次に、未学習を適用して、同定された刺激的な信念を抑え、真の信念を強化することにより、モデルの信念空間を効果的に修正する。
- 参考スコア(独自算出の注目度): 36.74368293113009
- License:
- Abstract: Large language models (LLMs) can exhibit advanced reasoning yet still generate incorrect answers. We hypothesize that such errors frequently stem from spurious beliefs, propositions the model internally considers true but are incorrect. To address this, we propose a method to rectify the belief space by suppressing these spurious beliefs while simultaneously enhancing true ones, thereby enabling more reliable inferences. Our approach first identifies the beliefs that lead to incorrect or correct answers by prompting the model to generate textual explanations, using our Forward-Backward Beam Search (FBBS). We then apply unlearning to suppress the identified spurious beliefs and enhance the true ones, effectively rectifying the model's belief space. Empirical results on multiple QA datasets and LLMs show that our method corrects previously misanswered questions without harming overall model performance. Furthermore, our approach yields improved generalization on unseen data, suggesting that rectifying a model's belief space is a promising direction for mitigating errors and enhancing overall reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度な推論を示すことができるが、誤った答えを生成する。
このような誤りは、しばしば急激な信念に由来すると仮定し、モデルが真であると内部的に考えるが誤りである、と仮定する。
そこで本研究では,これらのスプリケートな信念を同時に拡張し,より信頼性の高い推論を可能にすることにより,信念空間の正当性を改善する手法を提案する。
提案手法はまず,フォワード・バックワード・ビーム・サーチ(FBBS)を用いて,モデルに文章の説明文の生成を促すことによって,誤った,あるいは正しい回答につながる信念を同定する。
次に、未学習を適用して、同定された刺激的な信念を抑え、真の信念を強化することにより、モデルの信念空間を効果的に修正する。
複数のQAデータセットとLLMを用いた実験結果から,提案手法はモデル全体の性能を損なうことなく,未解答を補正することを示した。
さらに,本手法では,不明瞭なデータに対する一般化が向上し,モデルの信念空間の修正が誤りを軽減し,全体的な信頼性を高める上で有望な方向であることを示唆している。
関連論文リスト
- Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。
重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。
次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - A Belief Model for Conflicting and Uncertain Evidence -- Connecting
Dempster-Shafer Theory and the Topology of Evidence [8.295493796476766]
本稿では,不一致,不完全,不確実な証拠に基づいて,信念の度合いを測定する新しいモデルを提案する。
このモデルによる信念の計算次数は一般に#P完全であることが示される。
論文 参考訳(メタデータ) (2023-06-06T09:30:48Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z) - Do Language Models Have Beliefs? Methods for Detecting, Updating, and
Visualizing Model Beliefs [76.6325846350907]
Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。
本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
論文 参考訳(メタデータ) (2021-11-26T18:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。