論文の概要: High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning
- arxiv url: http://arxiv.org/abs/2506.04051v1
- Date: Wed, 04 Jun 2025 15:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.411274
- Title: High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning
- Title(参考訳): 高精度・低トーク(HALT) : 能力適応ファインタニングによる信頼性LLM
- Authors: Tim Franzmeyer, Archie Sravankumar, Lijuan Liu, Yuning Mao, Rui Hou, Sinong Wang, Jakob N. Foerster, Luke Zettlemoyer, Madian Khabsa,
- Abstract要約: 大規模言語モデル(LLM)は現在、すべてのプロンプトに応答する。
LLMは、知識や能力の欠如によって、誤った答えを生み出すことができる。
本稿では,その正確性に自信を持った場合にのみコンテンツを生成するためのLCMのポストトレーニングを提案する。
- 参考スコア(独自算出の注目度): 84.52940628494879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) currently respond to every prompt. However, they can produce incorrect answers when they lack knowledge or capability -- a problem known as hallucination. We instead propose post-training an LLM to generate content only when confident in its correctness and to otherwise (partially) abstain. Specifically, our method, HALT, produces capability-aligned post-training data that encodes what the model can and cannot reliably generate. We generate this data by splitting responses of the pretrained LLM into factual fragments (atomic statements or reasoning steps), and use ground truth information to identify incorrect fragments. We achieve capability-aligned finetuning responses by either removing incorrect fragments or replacing them with "Unsure from Here" -- according to a tunable threshold that allows practitioners to trade off response completeness and mean correctness of the response's fragments. We finetune four open-source models for biography writing, mathematics, coding, and medicine with HALT for three different trade-off thresholds. HALT effectively trades off response completeness for correctness, increasing the mean correctness of response fragments by 15% on average, while resulting in a 4% improvement in the F1 score (mean of completeness and correctness of the response) compared to the relevant baselines. By tuning HALT for highest correctness, we train a single reliable Llama3-70B model with correctness increased from 51% to 87% across all four domains while maintaining 53% of the response completeness achieved with standard finetuning.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、すべてのプロンプトに応答する。
しかし、知識や能力の欠如 -- 幻覚として知られる問題 -- がなければ、誤った答えを出すことができます。
その代わりに、その正確性に自信を持っていればコンテンツを生成し、そうでなければ(部分的に)中断するLLMのポストトレーニングを提案する。
具体的には,提案手法であるHALTは,モデルが可能で,確実に生成できないものを符号化した,能力に整合した後学習データを生成する。
我々は、事前訓練されたLCMの応答を事実のフラグメント(原子文や推論ステップ)に分割し、基底真理情報を用いて誤ったフラグメントを識別することで、このデータを生成する。
修正可能なしきい値に従って、不適切なフラグメントを削除したり、あるいは"Unsure from Here"に置き換えることで、機能に整合した微調整のレスポンスを実現します。
伝記、数学、コーディング、医学の4つのオープンソースモデルを3つのトレードオフしきい値に対してHALTで精査する。
HALTは応答完全性を効果的にトレードオフし、応答フラグメントの平均正しさを平均15%増加させ、F1スコア(応答の完全さと正しさ)を関連するベースラインと比較して4%改善する。
HALTを最大精度でチューニングすることにより、標準微調整で達成した応答完全性の53%を維持しながら、信頼性を51%から87%に向上した単一信頼性Llama3-70Bモデルをトレーニングする。
関連論文リスト
- Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction [4.304383298057423]
本稿では, 誤り前検出, 連鎖型サブタスク反復補正, 推論プロセス検証の3段階からなる信頼性補正フレームワーク(RLLM-CF)を提案する。
AISHELL-1, AISHELL-2, Librispeechの実験により, このフレームワークによって強化されたGPT-4oモデルは, CER/WERの相対減少率21%, 11%, 9%, 11.4%を達成した。
論文 参考訳(メタデータ) (2025-05-30T08:40:49Z) - From Misleading Queries to Accurate Answers: A Three-Stage Fine-Tuning Method for LLMs [5.23164145730825]
大規模言語モデル(LLM)は自然言語処理(NLP)において優れた性能を示す
既存の方法は出力の修正に重点を置いているが、LLMが入力自体の誤解を招くコンテンツを検出し修正する能力を改善する可能性を見落としていることが多い。
入力中のミスリード情報を検出・修正するLLMの能力を向上する新しい3段階微調整法を提案する。
論文 参考訳(メタデータ) (2025-04-15T15:16:45Z) - Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models [8.846200844870767]
大規模言語モデル(LLM)の好ましくない振る舞いの下位タイプを発見する。
我々はVerbosity Compensation (VC) を不確実性下での人間の鎮静行動と類似しているとしている。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:15:20Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。