論文の概要: Non-Linear Inference Time Intervention: Improving LLM Truthfulness
- arxiv url: http://arxiv.org/abs/2403.18680v2
- Date: Thu, 6 Jun 2024 13:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:42:53.462063
- Title: Non-Linear Inference Time Intervention: Improving LLM Truthfulness
- Title(参考訳): 非線形推論時間干渉:LLM真性の改善
- Authors: Jakub Hoscilowicz, Adam Wiacek, Jan Chojnacki, Adam Cieslak, Leszek Michon, Vitalii Urbanevych, Artur Janicki,
- Abstract要約: Inference Time Intervention (ITI) フレームワークを開発した。
この改善は、非線形多点探索および多点介入の導入において現れている。
ITIの基準値に対して16%以上のMC1改善が報告された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore LLM's internal representation space to identify attention heads that contain the most truthful and accurate information. We further developed the Inference Time Intervention (ITI) framework, which lets bias LLM without the need for fine-tuning. The improvement manifests in introducing a non-linear multi-token probing and multi-token intervention: Non-Linear ITI (NL-ITI), which significantly enhances performance on evaluation benchmarks. NL-ITI is tested on diverse multiple-choice datasets, including TruthfulQA, on which we report over 16% relative MC1 (accuracy of model pointing to the correct answer) improvement with respect to the baseline ITI results. Moreover, we achieved a 10% relative improvement over the recently released Truth Forest (TrFf) method that also focused on ITI improvement.
- Abstract(参考訳): 本研究では,LLMの内部表現空間を探索し,最も真正で正確な情報を含む注意ヘッドを同定する。
我々はさらに、微調整を必要とせずにLLMに偏りを与える推論時間干渉(ITI)フレームワークを開発した。
NL-ITI(Non-Linear ITI)は、評価ベンチマークの性能を大幅に向上させる。
NL-ITI は TruthfulQA など多種多種多様なデータセットでテストされ,そのベースライン ITI 結果に対して 16% 以上の相対 MC1 (正解を示すモデル精度) の改善が報告されている。
さらに,ITIの改良にも焦点をあてた最近リリースされたトラスフォレスト(TrFf)法に対して,10%の相対的な改善を実現した。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Crossing Linguistic Horizons: Finetuning and Comprehensive Evaluation of Vietnamese Large Language Models [11.563813473794013]
オープンソースの大言語モデル(LLM)はベトナム語処理において限られた効果を示す。
これらの問題を緩和するため、ベトナム専用にLLMを微調整しました。
以上の結果より, ベトナムでは, 微調整LDMは理解能力と生成能力が向上していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-05T07:13:28Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Inference-Time Intervention: Eliciting Truthful Answers from a Language Model [61.88942482411035]
Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T01:26:53Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。