論文の概要: Cross-model Transferability among Large Language Models on the Platonic Representations of Concepts
- arxiv url: http://arxiv.org/abs/2501.02009v1
- Date: Thu, 02 Jan 2025 11:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:35.178920
- Title: Cross-model Transferability among Large Language Models on the Platonic Representations of Concepts
- Title(参考訳): 概念のプラトン表現における大言語モデル間のクロスモデル伝達可能性
- Authors: Youcheng Huang, Chen Huang, Duanyu Feng, Wenqiang Lei, Jiancheng Lv,
- Abstract要約: この研究は、異なる大言語モデル(LLM)における概念表現間の複雑な関係を探求する。
我々はこれらの表現をブリッジする線形変換法を導入し、プラトンの洞窟のアレゴリーに平行な興味をそそる。
より小さなLSMから抽出されたSVは、より大きなLSMの挙動を効果的に制御できる。
- 参考スコア(独自算出の注目度): 24.990218468155383
- License:
- Abstract: Understanding the inner workings of Large Language Models (LLMs) is a critical research frontier. Prior research has shown that a single LLM's concept representations can be captured as steering vectors (SVs), enabling the control of LLM behavior (e.g., towards generating harmful content). Our work takes a novel approach by exploring the intricate relationships between concept representations across different LLMs, drawing an intriguing parallel to Plato's Allegory of the Cave. In particular, we introduce a linear transformation method to bridge these representations and present three key findings: 1) Concept representations across different LLMs can be effectively aligned using simple linear transformations, enabling efficient cross-model transfer and behavioral control via SVs. 2) This linear transformation generalizes across concepts, facilitating alignment and control of SVs representing different concepts across LLMs. 3) A weak-to-strong transferability exists between LLM concept representations, whereby SVs extracted from smaller LLMs can effectively control the behavior of larger LLMs.
- Abstract(参考訳): LLM(Large Language Models)の内部動作を理解することは、重要な研究フロンティアである。
以前の研究では、1つのLSMの概念表現をステアリングベクター(SV)として捉えることができ、LSMの挙動(例えば有害な内容を生成するための制御を可能にすることが示されている。
我々の研究は、異なるLLM間の概念表現の間の複雑な関係を探求し、プラトンの『洞窟のアレゴリー』と平行な興味を惹きつけることによって、新しいアプローチを採っている。
特に,これらの表現をブリッジする線形変換法を導入し,以下の3つの重要な知見を示す。
1) 異なるLLM間の概念表現は、単純な線形変換を用いて効果的に整列することができ、SVによる効率的なクロスモデル転送と行動制御が可能となる。
2) この線形変換は概念をまたいで一般化し,LLM間の異なる概念を表現するSVのアライメントと制御を容易にする。
3) LLM の概念表現の間には, より小さい LLM から抽出した SV がより大きな LLM の挙動を効果的に制御できる弱いストロング転送性が存在する。
関連論文リスト
- Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - ConTrans: Weak-to-Strong Alignment Engineering via Concept Transplantation [35.95755927728259]
ConTransは、コンセプト移植による弱いアライメント転送を可能にする新しいフレームワークである。
LLM-ファミリー間およびLLM-ファミリー内の両方のコンセプト移植の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-05-22T12:15:52Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z) - Bias Amplification in Language Model Evolution: An Iterated Learning Perspective [27.63295869974611]
我々は,Large Language Models (LLMs) の行動と人間の文化の進化の類似性を描いている。
我々のアプローチは、人間の文化進化においてどのように微妙なバイアスが拡大されるかを解明するベイズ的枠組みである反復学習(IL)を活用することである。
本稿では,ベイジアン・イルフレームワークにおけるエージェントの行動の特徴を概説する。
論文 参考訳(メタデータ) (2024-04-04T02:01:25Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。