Fugu-MT 論文翻訳(概要): Controlling Language and Diffusion Models by Transporting Activations

論文の概要: Controlling Language and Diffusion Models by Transporting Activations

arxiv url: http://arxiv.org/abs/2410.23054v2
Date: Fri, 22 Nov 2024 16:04:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.349476
Title: Controlling Language and Diffusion Models by Transporting Activations
Title（参考訳）: 輸送活性化による言語・拡散モデル制御
Authors: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau,
Abstract要約: 本稿では,最適な輸送理論で導かれる活性化を制御するためのフレームワークであるアクティベーショントランスポート(AcT)を紹介する。我々は,大規模言語モデル (LLM) とテキスト・ツー・イメージ拡散モデル (T2Is) の重要な課題に対処することで,我々のアプローチの有効性と汎用性を実験的に示す。
参考スコア（独自算出の注目度）: 23.352500740697938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing capabilities of large generative models and their ever more widespread deployment have raised concerns about their reliability, safety, and potential misuse. To address these issues, recent works have proposed to control model generation by steering model activations in order to effectively induce or prevent the emergence of concepts or behaviors in the generated output. In this paper we introduce Activation Transport (AcT), a general framework to steer activations guided by optimal transport theory that generalizes many previous activation-steering works. AcT is modality-agnostic and provides fine-grained control over the model behavior with negligible computational overhead, while minimally impacting model abilities. We experimentally show the effectiveness and versatility of our approach by addressing key challenges in large language models (LLMs) and text-to-image diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is, we show how AcT enables fine-grained style control and concept negation.
Abstract（参考訳）: 大規模生成モデルの能力の増大と、より広範な展開により、信頼性、安全性、潜在的な誤用に対する懸念が高まっている。これらの問題に対処するため、近年の研究では、モデルアクティベーションを操り、モデル生成を制御し、生成した出力における概念や行動の出現を効果的に誘導または防止する手法が提案されている。本稿では, 従来のアクティベーション・ステアリング作業の多くを一般化する最適輸送理論によって導かれる, ステア・アクティベーションの一般的な枠組みであるアクティベーション・トランスポート(AcT)を紹介する。 AcTはモダリティ非依存であり、モデル能力に最小限の影響を与えながら、無視できる計算オーバーヘッドを伴うモデル動作のきめ細かい制御を提供する。我々は,大規模言語モデル (LLM) とテキスト・ツー・イメージ拡散モデル (T2Is) の重要な課題に対処し,提案手法の有効性と汎用性を実験的に示す。 LLMに対して、AcTは毒性を効果的に軽減し、任意の概念を誘導し、真性を高めることができることを示す。 T2Isでは、AcTがいかにきめ細かなスタイル制御と概念否定を可能にするかを示す。

関連論文リスト

Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文参考訳（メタデータ） (2025-05-06T05:15:12Z)
Activation Space Interventions Can Be Transferred Between Large Language Models [0.0]
モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
論文参考訳（メタデータ） (2025-03-06T13:38:44Z)
CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文参考訳（メタデータ） (2024-10-07T00:55:42Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
Towards Human-Like Driving: Active Inference in Autonomous Vehicle Control [0.5437298646956507]
本稿では,アクティブ推論の適用を通じて,自律走行車(AV)制御への新たなアプローチを提案する。アクティブ推論(英: Active Inference)は、脳を予測機械として概念化する神経科学に由来する理論である。提案手法は,深層学習と能動推論を統合してAVの側方制御を制御し,シミュレーション都市環境下で車線追従操作を行う。
論文参考訳（メタデータ） (2024-07-10T14:08:27Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。 CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文参考訳（メタデータ） (2023-12-09T04:40:46Z)
Learning Exactly Linearizable Deep Dynamics Models [0.07366405857677226]
本稿では, 安定度, 信頼性, 信頼性を確保するために, 様々な制御理論を容易に適用可能な, 線形化可能な動的モデルの学習法を提案する。提案手法は, 自動車エンジンのリアルタイム制御に応用され, 予測性能と制約下での安定制御が良好であることを示す。
論文参考訳（メタデータ） (2023-11-30T05:40:55Z)
Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文参考訳（メタデータ） (2023-08-29T07:15:57Z)
Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。我々は、切り離された潜在的想像力に基づいて政策最適化を行う。これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文参考訳（メタデータ） (2023-03-27T02:55:56Z)
Guided Conditional Diffusion for Controllable Traffic Simulation [42.198185904248994]
制御可能で現実的な交通シミュレーションは、自動運転車の開発と検証に不可欠である。データ駆動アプローチは現実的で人間的な振る舞いを生成し、シミュレートされたトラフィックから現実のトラフィックへの移行を改善する。本研究では,制御可能なトラヒック生成(CTG)のための条件拡散モデルを構築し,テスト時に所望のトラジェクトリ特性を制御できるようにする。
論文参考訳（メタデータ） (2022-10-31T14:44:59Z)
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。 E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文参考訳（メタデータ） (2022-06-26T10:58:41Z)
Isolating and Leveraging Controllable and Noncontrollable Visual Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文参考訳（メタデータ） (2022-05-27T08:07:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。