論文の概要: On the Intersection of Self-Correction and Trust in Language Models
- arxiv url: http://arxiv.org/abs/2311.02801v1
- Date: Mon, 6 Nov 2023 00:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:52:16.891500
- Title: On the Intersection of Self-Correction and Trust in Language Models
- Title(参考訳): 言語モデルにおける自己修正と信頼の交点について
- Authors: Satyapriya Krishna
- Abstract要約: 大規模言語モデル(LLM)は、複雑な認知タスクを実行する際、顕著な能力を示した。
近年,LLMの自己補正能力について検討している。
我々は信頼の2つの重要な側面、真理と毒性に焦点を当てた実験を行う。
- 参考スコア(独自算出の注目度): 7.8833421052793256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in
performing complex cognitive tasks. However, their complexity and lack of
transparency have raised several trustworthiness concerns, including the
propagation of misinformation and toxicity. Recent research has explored the
self-correction capabilities of LLMs to enhance their performance. In this
work, we investigate whether these self-correction capabilities can be
harnessed to improve the trustworthiness of LLMs. We conduct experiments
focusing on two key aspects of trustworthiness: truthfulness and toxicity. Our
findings reveal that self-correction can lead to improvements in toxicity and
truthfulness, but the extent of these improvements varies depending on the
specific aspect of trustworthiness and the nature of the task. Interestingly,
our study also uncovers instances of "self-doubt" in LLMs during the
self-correction process, introducing a new set of challenges that need to be
addressed.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な認知タスクの実行において顕著な能力を示した。
しかし、その複雑さと透明性の欠如は、誤情報や毒性の伝播など、いくつかの信頼性の懸念を引き起こしている。
近年,LLMの自己補正能力について検討している。
本研究では,LLMの信頼性向上にこれらの自己補正機能を活用することができるかを検討する。
我々は信頼の2つの重要な側面、真理と毒性に焦点を当てた実験を行う。
以上の結果から,自己補正は毒性と真理性の改善につながることが判明したが,これらの改善の程度は,信頼性の特定の側面とタスクの性質によって異なることがわかった。
興味深いことに、私たちの研究は自己補正プロセス中にLLMの"自己疑似"の事例を明らかにし、対処すべき新たな課題を紹介しました。
関連論文リスト
- Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for
Hallucination Mitigation [9.730412606588335]
我々は,Large Language Models (LLMs) の内的知識状態の識別と表現能力を評価する。
本稿では,LLMの事実と正直性を高めるために強化学習を活用する,知識フィードバックからの強化学習(RLKF)トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T16:19:30Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。