論文の概要: A Timeline and Analysis for Representation Plasticity in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.06225v1
- Date: Tue, 8 Oct 2024 17:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:31:16.288068
- Title: A Timeline and Analysis for Representation Plasticity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける表現可塑性のタイムラインと解析
- Authors: Akshat Kannan,
- Abstract要約: 本稿では, 異なる微調整段階において抽出したステアリングを応用することにより, 「正直」 と モデル塑性がいかに進化するかを理解することを目的とする。
初期のステアリングは高い塑性を示すが、後期は驚くほど反応のよい臨界窓を持つ。
これらの洞察は、AI透明性の分野に大きく貢献し、効率の急激な欠如に対処し、モデルの振る舞いを効果的に操る能力を制限する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to steer AI behavior is crucial to preventing its long term dangerous and catastrophic potential. Representation Engineering (RepE) has emerged as a novel, powerful method to steer internal model behaviors, such as "honesty", at a top-down level. Understanding the steering of representations should thus be placed at the forefront of alignment initiatives. Unfortunately, current efforts to understand plasticity at this level are highly neglected. This paper aims to bridge the knowledge gap and understand how LLM representation stability, specifically for the concept of "honesty", and model plasticity evolve by applying steering vectors extracted at different fine-tuning stages, revealing differing magnitudes of shifts in model behavior. The findings are pivotal, showing that while early steering exhibits high plasticity, later stages have a surprisingly responsive critical window. This pattern is observed across different model architectures, signaling that there is a general pattern of model plasticity that can be used for effective intervention. These insights greatly contribute to the field of AI transparency, addressing a pressing lack of efficiency limiting our ability to effectively steer model behavior.
- Abstract(参考訳): AIの振る舞いを操る能力は、その長期的な危険で破滅的な可能性を防ぐために不可欠だ。
表現工学(RepE)は、トップダウンレベルで「正直」のような内部モデルの振る舞いを操る新しい強力な手法として登場した。
したがって、表現の運営を理解することは、アライメントイニシアチブの最前線に置かれるべきである。
残念ながら、このレベルでの可塑性を理解するための現在の取り組みは、非常に無視されている。
本稿では,LLM表現の安定性,特に「正直」の概念を橋渡しし,異なる微調整段階から抽出したステアリングベクトルを適用してモデル塑性をモデル化し,モデル挙動の相違点を明らかにすることを目的としている。
初期のステアリングは高い塑性を示すが、後期は驚くほど反応のよい臨界窓を持つ。
このパターンは異なるモデルアーキテクチャにまたがって観察され、効果的な介入に使用できるモデル可塑性の一般的なパターンが存在することを示唆している。
これらの洞察は、AI透明性の分野に大きく貢献し、効率の急激な欠如に対処し、モデルの振る舞いを効果的に操る能力を制限する。
関連論文リスト
- Tradeoffs Between Alignment and Helpfulness in Language Models with Representation Engineering [15.471566708181824]
本研究では,アライメントの増加とモデルの有用性の低下のトレードオフについて検討する。
フレームワークの条件下では、アライメントは表現工学によって保証される。
本研究は,表現工学ベクトルのノルムにより,有用性が2次的に損なわれることを示す。
論文 参考訳(メタデータ) (2024-01-29T17:38:14Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - On the Real-World Adversarial Robustness of Real-Time Semantic
Segmentation Models for Autonomous Driving [59.33715889581687]
現実世界の敵対的な例(通常はパッチの形で)の存在は、安全クリティカルなコンピュータビジョンタスクにおけるディープラーニングモデルの使用に深刻な脅威をもたらす。
本稿では,異なる種類の対立パッチを攻撃した場合のセマンティックセグメンテーションモデルのロバスト性を評価する。
画素の誤分類を誘導する攻撃者の能力を改善するために, 新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-01-05T22:33:43Z) - Unveiling the role of plasticity rules in reservoir computing [0.0]
Reservoir Computing (RC) は機械学習において魅力的なアプローチである。
我々は,RCの性能向上につながる変化に対して,塑性規則が果たす役割を分析する。
論文 参考訳(メタデータ) (2021-01-14T19:55:30Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。