Fugu-MT 論文翻訳(概要): Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation

論文の概要: Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation

arxiv url: http://arxiv.org/abs/2312.01648v3
Date: Thu, 11 Jul 2024 09:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 23:37:48.564203
Title: Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation
Title（参考訳）: 大規模言語モデル幾何学の特徴付けは、毒性の検出と生成を助ける
Authors: Randall Balestriero, Romain Cosentino, Sarath Shekkizhar,
Abstract要約: 大規模言語モデル(LLM)は、現在のAIのブレークスルーを促進する。我々は幾何学のレンズを通してLLMの内部機構に光を当てた。我々は,任意の(事前学習された)LLMから抽出できる解釈可能な幾何学的特徴を導出する。
参考スコア（独自算出の注目度）: 15.77263269398368
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) drive current AI breakthroughs despite very little being known about their internal representations. In this work, we propose to shed the light on LLMs inner mechanisms through the lens of geometry. In particular, we develop in closed form $(i)$ the intrinsic dimension in which the Multi-Head Attention embeddings are constrained to exist and $(ii)$ the partition and per-region affine mappings of the feedforward (MLP) network of LLMs' layers. Our theoretical findings further enable the design of novel principled solutions applicable to state-of-the-art LLMs. First, we show that, through our geometric understanding, we can bypass LLMs' RLHF protection by controlling the embedding's intrinsic dimension through informed prompt manipulation. Second, we derive interpretable geometrical features that can be extracted from any (pre-trained) LLM, providing a rich abstract representation of their inputs. We observe that these features are sufficient to help solve toxicity detection, and even allow the identification of various types of toxicity. Our results demonstrate how, even in large-scale regimes, exact theoretical results can answer practical questions in LLMs. Code: https://github.com/RandallBalestriero/SplineLLM
Abstract（参考訳）: 大きな言語モデル(LLM)は、内部表現についてほとんど知られていないにも関わらず、現在のAIのブレークスルーを加速させる。本研究では,LLMの内部機構の光を幾何学のレンズで遮蔽する手法を提案する。特に、我々は閉形式 $ で発展する。 (i)$ マルチヘッドアテンションの埋め込みが存在に制約されている本質的な次元と$ (ii) LLMの層からなるフィードフォワード(MLP)ネットワークのパーティションおよびリージョンごとのアフィンマッピングを$に設定する。我々の理論的な知見は、最先端のLCMに適用可能な、新しい原理化されたソリューションの設計をさらに可能とします。まず,LLMのRLHF保護を回避できることを示す。第2に,任意の(事前学習された) LLM から抽出可能な解釈可能な幾何学的特徴を導出し,それらの入力を抽象的に表現する。これらの特徴は、毒性検出の解決に十分であり、また、様々な種類の毒性の同定にも有効である。この結果から,LLMの実践的疑問に対して,大規模体制においても正確な理論的結果がどう答えられるかが示唆された。コード:https://github.com/RandallBalestriero/SplineLLM

関連論文リスト

Concise Geometric Description as a Bridge: Unleashing the Potential of LLM for Plane Geometry Problem Solving [50.05273675575345]
PlaneThought Problem Solving (PGPS) は幾何学図と問題テキスト記述に基づく平面幾何学的問題を解決することを目的としている。大規模言語モデル(LLM)は強力な推論能力を有しており、PGPSへの直接的な応用は視覚図の処理能力の欠如によって妨げられている。視覚図の幾何学的記述を生成するためにMLLMインタープリタを訓練し、既製のLCMを用いて推論を行う。
論文参考訳（メタデータ） (2026-01-29T02:03:33Z)
Collaborative QA using Interacting LLMs. Impact of Network Structure, Node Capability and Distributed Data [13.87098169839313]
本研究では,LLMのネットワークが協調質問応答 (CQA) をどのように行うかを分析し,分散文書の集合から基礎的真理を推定する。ネットワーク科学から平均場力学(MFD)の新たなアイデアと経済学からランダム化されたユーティリティモデルを組み合わせることで,LLMの相互作用とその幻覚について検討する。
論文参考訳（メタデータ） (2025-11-18T03:32:17Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives [8.713076928533846]
難しい問題をサブプロブレムに分解することで、解き易く、より効率的に解決できる。本稿は,LLMプリミティブを用いた解析が,そのようなシステムの効率性について考慮する必要があることを論じる。
論文参考訳（メタデータ） (2025-02-04T20:47:43Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation [33.46342144822026]
コード生成は、入力要求からコードを自動的に生成することを目的としており、開発効率を大幅に向上させる。最近の大規模言語モデル(LLM)ベースのアプローチは、有望な結果を示し、コード生成タスクに革命をもたらした。有望な性能にもかかわらず、LLMは、特にコード生成のシナリオにおいて、幻覚を伴うコンテンツを生成することが多い。
論文参考訳（メタデータ） (2024-09-30T17:51:15Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Hide and Seek: Fingerprinting Large Language Models with Evolutionary Learning [0.40964539027092917]
本稿では,Large Language Model (LLM) モデルの指紋認証のための新しいブラックボックス手法を提案する。モデルの正しいファミリーを特定する際には, 72%の精度が得られた。この研究は、LLMの振る舞いを理解するための新しい道を開き、モデル帰属、セキュリティ、そしてAI透明性の幅広い分野に重大な影響を与える。
論文参考訳（メタデータ） (2024-08-06T00:13:10Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。 LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文参考訳（メタデータ） (2024-05-10T11:44:05Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks [18.068035947969044]
計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。自己回帰型LSMは、それ自体で計画や自己検証を行うことはできない、と我々は主張する。本稿では,LLMの強みと外部モデルベース検証器を併用した bf LLM-Modulo Framework のビジョンを提案する。
論文参考訳（メタデータ） (2024-02-02T14:43:18Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。