論文の概要: Characterizing Large Language Model Geometry Solves Toxicity Detection
and Generation
- arxiv url: http://arxiv.org/abs/2312.01648v2
- Date: Mon, 11 Dec 2023 03:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:10:28.291832
- Title: Characterizing Large Language Model Geometry Solves Toxicity Detection
and Generation
- Title(参考訳): 大言語モデル幾何の特徴付けは毒性の検出と生成を解消する
- Authors: Randall Balestriero, Romain Cosentino, Sarath Shekkizhar
- Abstract要約: 大規模言語モデルは、現在のAIのブレークスルーを加速させる。
幾何学的観点からLLMを特徴付ける。
我々の結果は情報的であり、近似に頼らず、実行可能である。
- 参考スコア(独自算出の注目度): 17.23046811997016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models~(LLMs) drive current AI breakthroughs despite very
little being known about their internal representations, e.g., how to extract a
few informative features to solve various downstream tasks. To provide a
practical and principled answer, we propose to characterize LLMs from a
geometric perspective. We obtain in closed form (i) the intrinsic dimension in
which the Multi-Head Attention embeddings are constrained to exist and (ii) the
partition and per-region affine mappings of the per-layer feedforward networks.
Our results are informative, do not rely on approximations, and are actionable.
First, we show that, motivated by our geometric interpretation, we can bypass
Llama$2$'s RLHF by controlling its embedding's intrinsic dimension through
informed prompt manipulation. Second, we derive $7$ interpretable spline
features that can be extracted from any (pre-trained) LLM layer, providing a
rich abstract representation of their inputs. Those features alone ($224$ for
Mistral-7B/Llama$2$-7B and $560$ for Llama$2$-70B) are sufficient to help solve
toxicity detection, infer the domain of the prompt, and even tackle the Jigsaw
challenge, which aims at characterizing the type of toxicity of various
prompts. Our results demonstrate how, even in large-scale regimes, exact
theoretical results can answer practical questions in language models. Code:
\url{https://github.com/RandallBalestriero/SplineLLM}.
- Abstract(参考訳): 大規模言語モデル~(LLM)は、内部表現についてほとんど知られていないにもかかわらず、現在のAIのブレークスルーを駆動する。
実用的で原理的な解法として,幾何学的観点からLLMを特徴付けることを提案する。
我々は閉じた形で得られる
(i)多頭注意埋め込みが存在するように制約された内在的な次元
(II) 層ごとのフィードフォワードネットワークの分割および領域ごとのアフィンマッピング。
我々の結果は情報であり、近似に頼らず、実行可能である。
まず、幾何学的解釈によって、インフォームド・プロンプト操作により、その埋め込みの内在次元を制御することで、llama$2$'s rlhfをバイパスできることを示す。
次に,任意の(事前学習した)LCM層から抽出可能な7ドルの解釈可能なスプライン特徴を導出し,その入力を抽象的に表現する。
これらの機能だけでも(224$ for mistral-7b/llama$2$-7bと560$ for llama$2$-70b)は、毒性検出の解決、プロンプトのドメインの推測、さまざまなプロンプトの毒性タイプを特徴付けるjigsawチャレンジへの対処に十分である。
本研究は, 大規模システムにおいても, 正確な理論的結果が言語モデルにおける実用的疑問にどのように答えられるかを示す。
コード: \url{https://github.com/RandallBalestriero/SplineLLM}。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation [33.46342144822026]
コード生成は、入力要求からコードを自動的に生成することを目的としており、開発効率を大幅に向上させる。
最近の大規模言語モデル(LLM)ベースのアプローチは、有望な結果を示し、コード生成タスクに革命をもたらした。
有望な性能にもかかわらず、LLMは、特にコード生成のシナリオにおいて、幻覚を伴うコンテンツを生成することが多い。
論文 参考訳(メタデータ) (2024-09-30T17:51:15Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - Hide and Seek: Fingerprinting Large Language Models with Evolutionary Learning [0.40964539027092917]
本稿では,Large Language Model (LLM) モデルの指紋認証のための新しいブラックボックス手法を提案する。
モデルの正しいファミリーを特定する際には, 72%の精度が得られた。
この研究は、LLMの振る舞いを理解するための新しい道を開き、モデル帰属、セキュリティ、そしてAI透明性の幅広い分野に重大な影響を与える。
論文 参考訳(メタデータ) (2024-08-06T00:13:10Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks [18.068035947969044]
計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。
自己回帰型LSMは、それ自体で計画や自己検証を行うことはできない、と我々は主張する。
本稿では,LLMの強みと外部モデルベース検証器を併用した bf LLM-Modulo Framework のビジョンを提案する。
論文 参考訳(メタデータ) (2024-02-02T14:43:18Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。