論文の概要: Characterizing Large Language Model Geometry Solves Toxicity Detection
and Generation
- arxiv url: http://arxiv.org/abs/2312.01648v2
- Date: Mon, 11 Dec 2023 03:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:10:28.291832
- Title: Characterizing Large Language Model Geometry Solves Toxicity Detection
and Generation
- Title(参考訳): 大言語モデル幾何の特徴付けは毒性の検出と生成を解消する
- Authors: Randall Balestriero, Romain Cosentino, Sarath Shekkizhar
- Abstract要約: 大規模言語モデルは、現在のAIのブレークスルーを加速させる。
幾何学的観点からLLMを特徴付ける。
我々の結果は情報的であり、近似に頼らず、実行可能である。
- 参考スコア(独自算出の注目度): 17.23046811997016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models~(LLMs) drive current AI breakthroughs despite very
little being known about their internal representations, e.g., how to extract a
few informative features to solve various downstream tasks. To provide a
practical and principled answer, we propose to characterize LLMs from a
geometric perspective. We obtain in closed form (i) the intrinsic dimension in
which the Multi-Head Attention embeddings are constrained to exist and (ii) the
partition and per-region affine mappings of the per-layer feedforward networks.
Our results are informative, do not rely on approximations, and are actionable.
First, we show that, motivated by our geometric interpretation, we can bypass
Llama$2$'s RLHF by controlling its embedding's intrinsic dimension through
informed prompt manipulation. Second, we derive $7$ interpretable spline
features that can be extracted from any (pre-trained) LLM layer, providing a
rich abstract representation of their inputs. Those features alone ($224$ for
Mistral-7B/Llama$2$-7B and $560$ for Llama$2$-70B) are sufficient to help solve
toxicity detection, infer the domain of the prompt, and even tackle the Jigsaw
challenge, which aims at characterizing the type of toxicity of various
prompts. Our results demonstrate how, even in large-scale regimes, exact
theoretical results can answer practical questions in language models. Code:
\url{https://github.com/RandallBalestriero/SplineLLM}.
- Abstract(参考訳): 大規模言語モデル~(LLM)は、内部表現についてほとんど知られていないにもかかわらず、現在のAIのブレークスルーを駆動する。
実用的で原理的な解法として,幾何学的観点からLLMを特徴付けることを提案する。
我々は閉じた形で得られる
(i)多頭注意埋め込みが存在するように制約された内在的な次元
(II) 層ごとのフィードフォワードネットワークの分割および領域ごとのアフィンマッピング。
我々の結果は情報であり、近似に頼らず、実行可能である。
まず、幾何学的解釈によって、インフォームド・プロンプト操作により、その埋め込みの内在次元を制御することで、llama$2$'s rlhfをバイパスできることを示す。
次に,任意の(事前学習した)LCM層から抽出可能な7ドルの解釈可能なスプライン特徴を導出し,その入力を抽象的に表現する。
これらの機能だけでも(224$ for mistral-7b/llama$2$-7bと560$ for llama$2$-70b)は、毒性検出の解決、プロンプトのドメインの推測、さまざまなプロンプトの毒性タイプを特徴付けるjigsawチャレンジへの対処に十分である。
本研究は, 大規模システムにおいても, 正確な理論的結果が言語モデルにおける実用的疑問にどのように答えられるかを示す。
コード: \url{https://github.com/RandallBalestriero/SplineLLM}。
関連論文リスト
- Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - All in an Aggregated Image for In-Image Learning [22.605706711147405]
本稿では,In-Image Learning (I$2$L) と呼ばれる新しいコンテキスト内学習(ICL)機構を提案する。
I$2$Lは、実演例、視覚的手がかり、思考の連鎖的推論を集約されたイメージに組み合わせている。
本研究では,MathVista 上で I$2$L と I$2$L-Hybrid の有効性を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-28T01:32:59Z) - RAVEL: Evaluating Interpretability Methods on Disentangling Language
Model Representations [41.616325271145]
本稿では,解釈可能性法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVELを紹介する。
得られた概念的枠組みを用いて,マルチタスク分散アライメント探索の新しい手法を定義する。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-27T17:25:37Z) - Prompting with Divide-and-Conquer Program Makes Large Language Models Discerning to Hallucination and Deception [28.139780691709266]
本稿では,優れた表現力を確保し,タスクの分解,サブタスクの解決,分解処理を解消するDivide-and-Conquerプログラムを提案する。
実験結果から,提案手法は中間誤りや誤認内容に悩まされるタスクにおいて,通常の手順よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Polynomial Width is Sufficient for Set Representation with
High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。
a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文 参考訳(メタデータ) (2023-07-08T16:00:59Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。