論文の概要: LITO: Learnable Intervention for Truthfulness Optimization
- arxiv url: http://arxiv.org/abs/2405.00301v1
- Date: Wed, 1 May 2024 03:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 16:37:17.247683
- Title: LITO: Learnable Intervention for Truthfulness Optimization
- Title(参考訳): LITO:真さ最適化のための学習可能な介入
- Authors: Farima Fatahi Bayat, Xin Liu, H. V. Jagadish, Lu Wang,
- Abstract要約: 大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
- 参考スコア(独自算出の注目度): 19.69104070561701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can generate long-form and coherent text, but they still frequently hallucinate facts, thus limiting their reliability. To address this issue, inference-time methods that elicit truthful responses have been proposed by shifting LLM representations towards learned "truthful directions". However, applying the truthful directions with the same intensity fails to generalize across different question contexts. We propose LITO, a Learnable Intervention method for Truthfulness Optimization that automatically identifies the optimal intervention intensity tailored to a specific context. LITO explores a sequence of model generations based on increasing levels of intervention intensities. It selects the most accurate response or refuses to answer when the predictions are highly uncertain. Experiments on multiple LLMs and question-answering datasets demonstrate that LITO improves truthfulness while preserving task accuracy. The adaptive nature of LITO counters issues with one-size-fits-all intervention-based solutions, maximizing model truthfulness by reflecting internal knowledge only when the model is confident.
- Abstract(参考訳): 大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多く、信頼性が制限される。
この問題に対処するために,LLM表現を学習した「真理方向」にシフトさせることにより,真理応答を誘発する推論時手法が提案されている。
しかし、同じ強度の真正方向を適用すると、異なる質問コンテキストにまたがって一般化することができない。
本稿では,特定の文脈に合わせて最適な介入強度を自動的に識別する,真理性最適化のための学習可能なインターベンション手法LITOを提案する。
LITOは、介入強度の増大に基づくモデル世代を探索する。
予測が極めて不確実な場合には、最も正確な応答を選択するか、答えを拒否する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
LITOの適応性は、モデルが自信を持つ場合にのみ内部知識を反映してモデル真理性を最大化する、一大の介入ベースソリューションの問題に対処する。
関連論文リスト
- Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める
IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。
我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。
本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。
オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-02T16:03:13Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。