論文の概要: Probe-Free Low-Rank Activation Intervention
- arxiv url: http://arxiv.org/abs/2502.04043v1
- Date: Thu, 06 Feb 2025 13:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:45.327790
- Title: Probe-Free Low-Rank Activation Intervention
- Title(参考訳): プローブフリー低域活性化インターベンション
- Authors: Chonghe Jiang, Bao Nguyen, Anthony Man-Cho So, Viet Anh Nguyen,
- Abstract要約: 隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
- 参考スコア(独自算出の注目度): 26.502232859901167
- License:
- Abstract: Language models (LMs) can produce texts that appear accurate and coherent but contain untruthful or toxic content. Inference-time interventions that edit the hidden activations have shown promising results in steering the LMs towards desirable generations. Existing activation intervention methods often comprise an activation probe to detect undesirable generation, triggering the activation modification to steer subsequent generation. This paper proposes a probe-free intervention method FLORAIN for all attention heads in a specific activation layer. It eliminates the need to train classifiers for probing purposes. The intervention function is parametrized by a sample-wise nonlinear low-rank mapping, which is trained by minimizing the distance between the modified activations and their projection onto the manifold of desirable content. Under specific constructions of the manifold and projection distance, we show that the intervention strategy can be computed efficiently by solving a smooth optimization problem. The empirical results, benchmarked on multiple base models, demonstrate that FLORAIN consistently outperforms several baseline methods in enhancing model truthfulness and quality across generation and multiple-choice tasks.
- Abstract(参考訳): 言語モデル(LM)は、正確で一貫性のあるように見えるが、非現実的または有毒な内容を含むテキストを生成することができる。
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
既存のアクティベーション介入法は、しばしば、望ましくない生成を検出するアクティベーションプローブを構成し、その後の生成にアクティベーション修正をトリガーする。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
探索のために分類器を訓練する必要がなくなる。
介入関数はサンプルワイド非線形低ランクマッピングによりパラメータ化され、修正された活性化と望ましい内容の多様体への射影の距離を最小化して訓練される。
多様体と射影距離の具体的構成により、滑らかな最適化問題を解くことにより、介入戦略を効率的に計算できることが示される。
複数のベースモデルでベンチマークされた実験結果は、FLORAINがモデル真理性と品質を世代間および複数選択タスクで向上する上で、いくつかのベースラインメソッドを一貫して上回っていることを示している。
関連論文リスト
- Task-driven Layerwise Additive Activation Intervention [12.152228552335798]
現代言語モデル(LM)は自然言語処理(NLP)において著しく高度な生成モデルを持つ
本稿では, 介入プロセスの最適化を行うレイヤワイド・アダプティブ・アクティベーション・インタベーション・インタプリタ・フレームワークを提案する。
我々は、様々なデータセット上でフレームワークをベンチマークし、事前訓練されたLMの精度と競合する介入ベースラインの改善を示す。
論文 参考訳(メタデータ) (2025-02-10T02:49:46Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
常識推論,自然言語理解,自然言語生成を対象とする3つのベンチマークの評価を通じて,JoLAが既存の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - Risk-Aware Distributional Intervention Policies for Language Models [15.027122089807053]
言語モデルは、有害な内容や有害な内容など、時には望ましくない世代が現れる傾向にある。
本稿では、望ましくないコンテンツの世代を検知し、緩和する新しい2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-27T04:00:38Z) - Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control [0.0]
本稿では,Prompt-Tuningでよく見られる埋没崩壊現象が,モデルの最終性能に与える影響について検討する。
以上の結果から, 先行は調整した埋め込みの位置に強く影響し, モデルが活性化空間の異なる部分からの埋め込みを効果的に扱えることが示唆された。
論文 参考訳(メタデータ) (2024-12-24T18:18:52Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - VRA: Variational Rectified Activation for Out-of-distribution Detection [45.804178022641764]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界で信頼性の高い機械学習システムを構築する上で重要である。
ReActはモデル過信に対処する典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増大させる。
本稿では,これらの抑制と増幅操作を一括関数を用いてシミュレートする「変分整定活性化(VRA)'」という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T00:45:14Z) - Active Learning for Optimal Intervention Design in Causal Models [11.294389953686945]
本研究は、最適介入を特定するための因果的アクティブラーニング戦略を開発し、分布のインターベンショナル平均と所望の目標平均との相違によって測定した。
本研究では、Perturb-CITE-seq実験から得られた合成データと単細胞転写データの両方にアプローチを適用し、特定の細胞状態遷移を誘導する最適な摂動を同定する。
論文 参考訳(メタデータ) (2022-09-10T20:40:30Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。