論文の概要: Extending Activation Steering to Broad Skills and Multiple Behaviours
- arxiv url: http://arxiv.org/abs/2403.05767v1
- Date: Sat, 9 Mar 2024 02:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:32:40.397157
- Title: Extending Activation Steering to Broad Skills and Multiple Behaviours
- Title(参考訳): ブロードスキルと複数行動へのアクティベーションステアリングの拡張
- Authors: Teun van der Weij, Massimo Poesio, Nandi Schoots
- Abstract要約: 幅広いスキルと多行動に対するアクティベーションステアリングの有効性について検討した。
より広いスキルを操ることが、より狭いスキルを操ることと競争力があることが分かっています。
私たちは、ミオピックと富の探究を多かれ少なかれ行うようにモデルを操縦します。
- 参考スコア(独自算出の注目度): 5.40770929004319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large language models have dangerous capabilities, which are likely
to become more problematic in the future. Activation steering techniques can be
used to reduce risks from these capabilities. In this paper, we investigate the
efficacy of activation steering for broad skills and multiple behaviours.
First, by comparing the effects of reducing performance on general coding
ability and Python-specific ability, we find that steering broader skills is
competitive to steering narrower skills. Second, we steer models to become more
or less myopic and wealth-seeking, among other behaviours. In our experiments,
combining steering vectors for multiple different behaviours into one steering
vector is largely unsuccessful. On the other hand, injecting individual
steering vectors at different places in a model simultaneously is promising.
- Abstract(参考訳): 現在の大きな言語モデルには危険な能力があり、将来的には問題になりそうである。
アクティベーションステアリング技術は、これらの能力によるリスクを軽減するために使用できる。
本稿では,幅広いスキルと多行動に対するアクティベーションステアリングの有効性について検討する。
まず、パフォーマンスの低下が一般的なコーディング能力とpython特有の能力に与える影響を比較することで、幅広いスキルの操り方が、より狭いスキルの操り方と競合することが分かりました。
第二に、私たちはモデルに近視的、富的になるように仕向けます。
実験では,複数の異なる動作に対する操舵ベクトルを1つの操舵ベクトルに結合することはほとんど成功しなかった。
一方、モデル内の異なる場所で個別の操舵ベクトルを同時に注入することは有望である。
関連論文リスト
- Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
本稿では,都市ナビゲーションに不可欠な複数のコンピュータビジョンタスクを訓練した共有エンコーダを提案する。
ポーズ推定のためのマルチスケール特徴ネットワークを導入し,深度学習を改善する。
その結果,多様な視覚的タスクを訓練した共有バックボーンは,全体的な知覚能力を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:54:03Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically
Simulated Characters [123.88692739360457]
汎用運動技術により、人間は複雑な作業を行うことができる。
これらのスキルは、新しいタスクを学ぶときの振る舞いを導くための強力な先駆者も提供します。
物理シミュレーション文字のための汎用的で再利用可能なスキル埋め込みを学習するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:13:28Z) - Advanced Skills through Multiple Adversarial Motion Priors in
Reinforcement Learning [10.445369597014533]
本稿では, 対向運動に基づく強化学習の概念を強化するためのアプローチを提案する。
複数のスタイルやスキルを,顕著なパフォーマンスの違いを伴わずに同時に学習できることが示される。
本手法は車輪付き四脚ロボットを用いた実世界実験で実証された。
論文 参考訳(メタデータ) (2022-03-23T09:24:06Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。