論文の概要: NL-ITI: Optimizing Probing and Intervention for Improvement of ITI Method
- arxiv url: http://arxiv.org/abs/2403.18680v1
- Date: Wed, 27 Mar 2024 15:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:19:17.959144
- Title: NL-ITI: Optimizing Probing and Intervention for Improvement of ITI Method
- Title(参考訳): NL-ITI: ITI法の改良のための探索と介入の最適化
- Authors: Jakub Hoscilowicz, Adam Wiacek, Jan Chojnacki, Adam Cieslak, Leszek Michon, Vitalii Urbanevych, Artur Janicki,
- Abstract要約: 大型言語モデル(LLM)は偽情報を返す傾向がある。
Inference-Time-Intervention (ITI)は、最も多く望まれる知識を含む注意ヘッドを識別する。
非線形な探索とマルチトークンの介入を導入することで、ITIフレームワークをさらに改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) are prone to returning false information. It constitutes one of major challenges in the AI field. In our work, we explore paradigm introduced by Inference-Time-Intervention (ITI). In first stage, it identifies attention heads, which contain the highest amount of desired type of knowledge (e.g., truthful). Afterwards, during inference, LLM activations are shifted for chosen subset of attention heads. We further improved the ITI framework by introducing a nonlinear probing and multi-token intervention - Non-Linear ITI (NL-ITI). NL-ITI is tested on diverse multiple-choice benchmarks, including TruthfulQA, on which we report around 14% MC1 metric improvement with respect to the baseline ITI results. NL-ITI achieves also encouraging results on other testsets - on Business Ethics subdomain of MMLU, around 18% MC1 improvement over baseline LLaMA2-7B. Additionally, NL-ITI performs better while being less invasive in the behavior of LLM at the same time (as measured by Kullback-Leibler divergence).
- Abstract(参考訳): 大型言語モデル(LLM)は偽情報を返す傾向がある。
これはAI分野における大きな課題の1つだ。
本稿では,ITI(Inference-Time-Intervention)のパラダイムについて検討する。
第一段階では、最も望ましい種類の知識(例えば、真実)を含む注意頭を特定する。
その後、推定中に、選択された注目ヘッドのサブセットに対してLSMアクティベーションをシフトする。
非線形探索と多点干渉(Non-Linear ITI, NL-ITI)を導入することにより, ITIフレームワークをさらに改善した。
NL-ITIはTruthfulQAを含む多種多様なマルチチョイスベンチマークでテストされ、ベースラインITIの結果に対して約14%のMC1メートル法の改善が報告されている。
NL-ITIは、MMLUのビジネス倫理サブドメインにおいて、ベースラインのLLaMA2-7Bよりも約18%のMC1の改善という、他のテストセットの奨励的な結果も達成している。
さらに、NL-ITIはLLMの挙動(Kulback-Leiblerの発散によって測定されるように)の侵襲性を低下させながら、より優れた性能を発揮する。
関連論文リスト
- An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - SelectIT: Selective Instruction Tuning for Large Language Models via
Uncertainty-Aware Self-Reflection [49.54657248221432]
本研究では,大規模言語モデル (LLM) の基本機能を活用する新しいアプローチ SelectIT を提案する。
具体的には、LLMに存在する本質的な不確実性を利用して、余分なリソースを必要とせずに、より効果的に高品質なITデータを選択する。
実証的な結果は、Selective Alpacaを使用したITが、実質的なモデル能力の向上につながることを示している。
論文 参考訳(メタデータ) (2024-02-26T16:21:53Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - ActiveGLAE: A Benchmark for Deep Active Learning with Transformers [5.326702806697265]
Deep Active Learning (DAL)は、モデルを最大限に学習したいインスタンスアノテーションを積極的にクエリできるようにすることで、アノテーションのコストを削減しようとしている。
DALの分野では、トランスフォーマーベースの言語モデルに対する標準化された評価プロトコルが存在しない。
DALを評価するための総合的なデータセットと評価ガイドラインであるActiveGLAEベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-16T13:07:29Z) - Inference-Time Intervention: Eliciting Truthful Answers from a Language
Model [66.10330070077583]
Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T01:26:53Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。