論文の概要: Inspection and Control of Self-Generated-Text Recognition Ability in Llama3-8b-Instruct
- arxiv url: http://arxiv.org/abs/2410.02064v1
- Date: Wed, 2 Oct 2024 22:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:15:24.917067
- Title: Inspection and Control of Self-Generated-Text Recognition Ability in Llama3-8b-Instruct
- Title(参考訳): Llama3-8b-インストラクションにおける自己生成テキスト認識能力の検査と制御
- Authors: Christopher Ackerman, Nina Panickssery,
- Abstract要約: Llama3-8b-Instruct のチャットモデルでは,その出力を人間のものと確実に区別できることがわかった。
モデルが正しい自己書式認識判定を行うとき, モデル残ストリーム内のベクトルを差動活性化する。
ベクトルはモデルの振る舞いと知覚の両方を制御できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been reported that LLMs can recognize their own writing. As this has potential implications for AI safety, yet is relatively understudied, we investigate the phenomenon, seeking to establish whether it robustly occurs at the behavioral level, how the observed behavior is achieved, and whether it can be controlled. First, we find that the Llama3-8b-Instruct chat model - but not the base Llama3-8b model - can reliably distinguish its own outputs from those of humans, and present evidence that the chat model is likely using its experience with its own outputs, acquired during post-training, to succeed at the writing recognition task. Second, we identify a vector in the residual stream of the model that is differentially activated when the model makes a correct self-written-text recognition judgment, show that the vector activates in response to information relevant to self-authorship, present evidence that the vector is related to the concept of "self" in the model, and demonstrate that the vector is causally related to the model's ability to perceive and assert self-authorship. Finally, we show that the vector can be used to control both the model's behavior and its perception, steering the model to claim or disclaim authorship by applying the vector to the model's output as it generates it, and steering the model to believe or disbelieve it wrote arbitrary texts by applying the vector to them as the model reads them.
- Abstract(参考訳): LLMは自身の著作を認識できると報告されている。
これはAIの安全性に潜在的に影響を及ぼす可能性があるが、比較的検討されているため、その現象を調査し、それが行動レベルで堅牢に起こるかどうか、観察された振る舞いがどのように達成されるか、制御できるかどうかを確かめる。
まず,Llama3-8b-Instructチャットモデルにおいて,Llama3-8bモデルではなく,Llama3-8bモデルを用いて,人間と自身のアウトプットを確実に区別できることを見出した。
第2に,モデルが正しい自己書面認識判定を行う際に,モデル残流のベクトルを差動的に活性化し,そのベクトルが自己オーサシップに関連する情報に応答して活性化することを示すとともに,そのベクトルがモデルにおける「自己」の概念と関連していることを示すとともに,モデルが自己オーサシップを知覚し,主張する能力に因果的に関連していることを示す。
最後に,モデルの動作と知覚の両方をベクトルで制御し,モデルが生成した出力にベクトルを適用することによって,著者の主張や否定をモデルで制御し,モデルがそれを読み取ると任意のテキストを信じるか,あるいは無視するかを判断する。
関連論文リスト
- Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Representation Tuning [0.0]
アクティベーションエンジニアリングは、大規模言語モデルのオンライン制御手段として、ますます人気が高まっている。
本研究では,これらのベクトルを直接モデルにチューニングするために,興味の行動方向を表すベクトルを用いた推論時ステアリングの概念を拡張する。
論文 参考訳(メタデータ) (2024-09-11T00:56:02Z) - Meanings and Feelings of Large Language Models: Observability of Latent States in Generative AI [65.04274914674771]
アメリカ心理学会(APA)によると、現在のLarge Language Models(LLM)は「フィーリング」ができない。
我々の分析は、モデルがユーザに見えない非自明な計算を実行できるようにする可能性のある設計に光を当てている。
論文 参考訳(メタデータ) (2024-05-22T23:18:58Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Controlling the Focus of Pretrained Language Generation Models [22.251710018744497]
本研究では,ユーザが注目するモデルに対して,コンテキストのスパンを"ハイライト"として選択し,関連する出力を生成するための制御機構を開発する。
この目的を達成するために、トレーニング可能な"フォーカスベクトル"で事前訓練されたモデルを拡張し、モデルの埋め込みに直接適用する。
実験の結果,訓練された焦点ベクトルは,ユーザの選択したハイライトに関連する出力を生成するためにモデルを操るのに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-02T14:46:14Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Reason induced visual attention for explainable autonomous driving [2.090380922731455]
ディープラーニング (DL) ベースのコンピュータビジョン (CV) モデルは一般的に、解釈性が悪いため、ブラックボックスと見なされる。
本研究の目的は,自律運転におけるDLモデルの解釈可能性を高めることにある。
提案手法は,視覚入力(画像)と自然言語を協調的にモデル化することにより,人間の運転者の学習過程を模倣する。
論文 参考訳(メタデータ) (2021-10-11T18:50:41Z) - Improving Aspect-based Sentiment Analysis with Gated Graph Convolutional
Networks and Syntax-based Regulation [89.38054401427173]
Aspect-based Sentiment Analysis (ABSA) は、特定の側面に向けて文の感情極性を予測する。
依存関係ツリーは、ABSAの最先端のパフォーマンスを生成するために、ディープラーニングモデルに統合することができる。
本稿では,この2つの課題を克服するために,グラフに基づく新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2020-10-26T07:36:24Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。