論文の概要: Aggregate and conquer: detecting and steering LLM concepts by combining nonlinear predictors over multiple layers
- arxiv url: http://arxiv.org/abs/2502.03708v1
- Date: Thu, 06 Feb 2025 01:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:38.469523
- Title: Aggregate and conquer: detecting and steering LLM concepts by combining nonlinear predictors over multiple layers
- Title(参考訳): 集合と征服:複数層上の非線形予測器の組み合わせによるLLM概念の検出と操舵
- Authors: Daniel Beaglehole, Adityanarayanan Radhakrishnan, Enric Boix-Adserà, Mikhail Belkin,
- Abstract要約: 本稿では,大規模言語モデルの内部アクティベーションにおける意味概念の検出方法を提案する。
提案手法は,所望の出力に対するLPMのステアリングに容易に適用可能であることを示す。
我々は LLM を新たな概念に推し進めることで,我々のアプローチの一般性を強調した。
- 参考スコア(独自算出の注目度): 16.303681959333883
- License:
- Abstract: A trained Large Language Model (LLM) contains much of human knowledge. Yet, it is difficult to gauge the extent or accuracy of that knowledge, as LLMs do not always ``know what they know'' and may even be actively misleading. In this work, we give a general method for detecting semantic concepts in the internal activations of LLMs. Furthermore, we show that our methodology can be easily adapted to steer LLMs toward desirable outputs. Our innovations are the following: (1) we use a nonlinear feature learning method to identify important linear directions for predicting concepts from each layer; (2) we aggregate features across layers to build powerful concept detectors and steering mechanisms. We showcase the power of our approach by attaining state-of-the-art results for detecting hallucinations, harmfulness, toxicity, and untruthful content on seven benchmarks. We highlight the generality of our approach by steering LLMs towards new concepts that, to the best of our knowledge, have not been previously considered in the literature, including: semantic disambiguation, human languages, programming languages, hallucinated responses, science subjects, poetic/Shakespearean English, and even multiple concepts simultaneously. Moreover, our method can steer concepts with numerical attributes such as product reviews. We provide our code (including a simple API for our methods) at https://github.com/dmbeaglehole/neural_controllers .
- Abstract(参考訳): 訓練されたLarge Language Model (LLM) には、多くの人間の知識が含まれている。
しかし、LSMは必ずしも「自分が知っていることを知っている」とは限らないため、その知識の程度や正確さを測ることは困難であり、積極的に誤解を招きかねない。
本研究では,LLMの内部アクティベーションにおける意味概念の検出方法を提案する。
さらに,本手法は,所望の出力に対するLPMのステアリングにも容易に適用可能であることを示す。
1) 各層から概念を予測するために重要な線形方向を識別するために非線形特徴学習法を用い,(2) 層にまたがる特徴を集約し,強力な概念検出器とステアリング機構を構築する。
我々は,7つのベンチマークで幻覚,有害性,毒性,および不合理な内容を検出するための最先端の結果を得ることによって,我々のアプローチの力を実証する。
我々は LLM を新しい概念に向けることで、我々のアプローチの一般性を強調する: 意味的曖昧さ、人間の言語、プログラミング言語、幻覚的応答、科学主題、詩/シェークスピア英語、そして同時に複数の概念。
さらに,本手法は,製品レビューなどの数値属性で概念を操ることが可能である。
私たちはhttps://github.com/dmbeaglehole/neural_controllers.orgでコード(メソッド用のシンプルなAPIを含む)を提供しています。
関連論文リスト
- Refine Knowledge of Large Language Models via Adaptive Contrastive Learning [54.61213933999464]
方法の主流は、大規模言語モデルの知識表現を最適化することで幻覚を減らすことである。
知識を精錬するモデルのプロセスは、人間の学習方法から大きな恩恵を受けることができると私たちは信じています。
人間の学習過程を模倣することで,適応的コントラスト学習戦略を設計する。
論文 参考訳(メタデータ) (2025-02-11T02:19:13Z) - Knowledge Graph-Enhanced Large Language Models via Path Selection [58.228392005755026]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。
LLMは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。
上記の問題に対処する3段階の原理的フレームワークKELPを提案する。
論文 参考訳(メタデータ) (2024-06-19T21:45:20Z) - What's in an embedding? Would a rose by any embedding smell as sweet? [0.0]
大規模言語モデル(LLM)は、真の「理解」と知識を「理解」する能力に欠けるとしてしばしば批判される。
我々は, LLM が「幾何学的」な経験的「下地」を発達させ, NLP の様々な応用に適していると考えられることを示唆する。
これらの制限を克服するために、LLMはシンボリックAI要素を含む知識の「代数的」表現と統合されるべきである。
論文 参考訳(メタデータ) (2024-06-11T01:10:40Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Distilling Rule-based Knowledge into Large Language Models [90.7765003679106]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large
Language Models [34.43660759521586]
大規模言語モデル(LLM)は、自然言語理解および生成タスクにおいて顕著な性能を達成した。
しかし、新しい知識を取り入れることの難しさや幻覚を生じさせ、推論過程を説明するといった制限に悩まされることが多い。
本稿では,知識グラフ(KG)を利用してLLMの推論と透過性を向上する新しいプロンプトパイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-17T16:59:50Z) - Concept-Oriented Deep Learning with Large Language Models [0.4548998901594072]
大規模言語モデル(LLM)は、テキスト生成やAIチャットボットを含む多くの自然言語タスクやアプリケーションで成功している。
また、概念指向ディープラーニング(CODL)のための有望な新技術である。
画像からの概念抽出,画像からの概念グラフ抽出,概念学習など,CODLにおける視覚言語LLMの概念理解,最も重要なマルチモーダルLLMの活用について論じる。
論文 参考訳(メタデータ) (2023-06-29T16:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。