論文の概要: NL-ITI: Optimizing Probing and Intervention for Improvement of ITI Method
- arxiv url: http://arxiv.org/abs/2403.18680v1
- Date: Wed, 27 Mar 2024 15:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:19:17.959144
- Title: NL-ITI: Optimizing Probing and Intervention for Improvement of ITI Method
- Title(参考訳): NL-ITI: ITI法の改良のための探索と介入の最適化
- Authors: Jakub Hoscilowicz, Adam Wiacek, Jan Chojnacki, Adam Cieslak, Leszek Michon, Vitalii Urbanevych, Artur Janicki,
- Abstract要約: 大型言語モデル(LLM)は偽情報を返す傾向がある。
Inference-Time-Intervention (ITI)は、最も多く望まれる知識を含む注意ヘッドを識別する。
非線形な探索とマルチトークンの介入を導入することで、ITIフレームワークをさらに改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) are prone to returning false information. It constitutes one of major challenges in the AI field. In our work, we explore paradigm introduced by Inference-Time-Intervention (ITI). In first stage, it identifies attention heads, which contain the highest amount of desired type of knowledge (e.g., truthful). Afterwards, during inference, LLM activations are shifted for chosen subset of attention heads. We further improved the ITI framework by introducing a nonlinear probing and multi-token intervention - Non-Linear ITI (NL-ITI). NL-ITI is tested on diverse multiple-choice benchmarks, including TruthfulQA, on which we report around 14% MC1 metric improvement with respect to the baseline ITI results. NL-ITI achieves also encouraging results on other testsets - on Business Ethics subdomain of MMLU, around 18% MC1 improvement over baseline LLaMA2-7B. Additionally, NL-ITI performs better while being less invasive in the behavior of LLM at the same time (as measured by Kullback-Leibler divergence).
- Abstract(参考訳): 大型言語モデル(LLM)は偽情報を返す傾向がある。
これはAI分野における大きな課題の1つだ。
本稿では,ITI(Inference-Time-Intervention)のパラダイムについて検討する。
第一段階では、最も望ましい種類の知識(例えば、真実)を含む注意頭を特定する。
その後、推定中に、選択された注目ヘッドのサブセットに対してLSMアクティベーションをシフトする。
非線形探索と多点干渉(Non-Linear ITI, NL-ITI)を導入することにより, ITIフレームワークをさらに改善した。
NL-ITIはTruthfulQAを含む多種多様なマルチチョイスベンチマークでテストされ、ベースラインITIの結果に対して約14%のMC1メートル法の改善が報告されている。
NL-ITIは、MMLUのビジネス倫理サブドメインにおいて、ベースラインのLLaMA2-7Bよりも約18%のMC1の改善という、他のテストセットの奨励的な結果も達成している。
さらに、NL-ITIはLLMの挙動(Kulback-Leiblerの発散によって測定されるように)の侵襲性を低下させながら、より優れた性能を発揮する。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Crossing Linguistic Horizons: Finetuning and Comprehensive Evaluation of Vietnamese Large Language Models [11.563813473794013]
オープンソースの大言語モデル(LLM)はベトナム語処理において限られた効果を示す。
これらの問題を緩和するため、ベトナム専用にLLMを微調整しました。
以上の結果より, ベトナムでは, 微調整LDMは理解能力と生成能力が向上していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-05T07:13:28Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Inference-Time Intervention: Eliciting Truthful Answers from a Language Model [61.88942482411035]
Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T01:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。