Fugu-MT 論文翻訳(概要): Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective

論文の概要: Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective

arxiv url: http://arxiv.org/abs/2409.10053v2
Date: Mon, 09 Dec 2024 03:53:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.719532
Title: Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective
Title（参考訳）: 家庭の擬似回転:方向・方向の視点によるLCMの活性化編集への新しいアプローチ
Authors: Van-Cuong Pham, Thien Huu Nguyen,
Abstract要約: 本稿では,アクティベーションをその方向や大きさで見る新しい編集手法を提案する。提案手法は,HPR (Houseer Pseudo-Rotation) と呼ばれ,回転変換を模倣し,アクティベーション基準を保ち,様々な安全ベンチマークの性能を向上させる。
参考スコア（独自算出の注目度）: 32.12158544745983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Activation Editing, which involves directly editting the internal representations of large language models (LLMs) to alter their behaviors and achieve desired properties, has emerged as a promising area of research. Existing works primarily treat LLMs' activations as points in space and modify them by adding steering vectors. However, this approach is limited in its ability to achieve greater performance improvement while maintaining the necessary consistency of activation magnitudes. To overcome these issues, we propose a novel editing method that views activations in terms of their directions and magnitudes. Our method, named Householder Pseudo-Rotation (HPR), mimics the rotation transformation, thus preserving activation norms and resulting in an improved performance on various safety benchmarks.
Abstract（参考訳）: アクティベーション編集(Activation Editing)は、大規模言語モデル(LLM)の内部表現を直接編集して、その振る舞いを変更し、望ましい特性を達成することを含む、将来性のある研究領域として登場した。既存の研究は主にLLMの活性化を空間上の点として扱い、ステアリングベクトルを追加して修正している。しかし、このアプローチは、アクティベーションマグニチュードの必要な一貫性を維持しながら、より大きなパフォーマンス向上を達成する能力に制限されている。そこで本稿では,これらの課題を克服するために,アクティベーションを方向や大きさで見る新しい編集手法を提案する。提案手法は,HPR (Houseer Pseudo-Rotation) と呼ばれ,回転変換を模倣し,アクティベーション基準を保ち,様々な安全ベンチマークの性能を向上させる。

関連論文リスト

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Task-driven Layerwise Additive Activation Intervention [12.152228552335798]
現代言語モデル(LM)は自然言語処理(NLP)において著しく高度な生成モデルを持つ本稿では, 介入プロセスの最適化を行うレイヤワイド・アダプティブ・アクティベーション・インタベーション・インタプリタ・フレームワークを提案する。我々は、様々なデータセット上でフレームワークをベンチマークし、事前訓練されたLMの精度と競合する介入ベースラインの改善を示す。
論文参考訳（メタデータ） (2025-02-10T02:49:46Z)
Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。 JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。常識推論,自然言語理解,自然言語生成を対象とする3つのベンチマークの評価を通じて,JoLAが既存の手法を一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-02-03T09:13:09Z)
LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文参考訳（メタデータ） (2025-01-19T13:06:51Z)
Identifying and Manipulating Personality Traits in LLMs Through Activation Engineering [0.0]
本研究は「アクティベーション・エンジニアリング」の新たなアプローチに基づくものである。我々は,アクティベーションエンジニアリングを活用し,性格特性に関連するアクティベーション方向を識別・調整する手法を開発した。
論文参考訳（メタデータ） (2024-12-10T23:15:25Z)
Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文参考訳（メタデータ） (2024-10-16T06:58:49Z)
Activation-Descent Regularization for Input Optimization of ReLU Networks [14.855585146315741]
本稿では、アクティベーションパターンの変化の影響を明示的に考慮し、ReLUネットワークの入力最適化のための新しいアプローチを提案する。アクティベーションパターンの離散空間を微分可能表現に変換し、各降下ステップを改善する正規化項を提案する。提案手法の有効性を実証し,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2024-06-01T16:46:46Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文参考訳（メタデータ） (2024-05-28T05:10:40Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。 AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文参考訳（メタデータ） (2023-05-04T19:11:33Z)
Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文参考訳（メタデータ） (2022-03-27T08:15:20Z)
Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文参考訳（メタデータ） (2022-01-14T21:15:58Z)
Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation [24.08326440298189]
弱教師付きセマンティックセグメンテーションのための新しいアクティベーション変調と再校正手法を提案する。 PASCAL VOC 2012データセット上で,AMRが新たな最先端パフォーマンスを確立することを示す。また,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能向上を図ることが可能であることを実験により明らかにした。
論文参考訳（メタデータ） (2021-12-16T16:26:14Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。