論文の概要: Representation Engineering: A Top-Down Approach to AI Transparency
- arxiv url: http://arxiv.org/abs/2310.01405v3
- Date: Tue, 10 Oct 2023 08:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:05:51.439600
- Title: Representation Engineering: A Top-Down Approach to AI Transparency
- Title(参考訳): Representation Engineering: AIの透明性に対するトップダウンアプローチ
- Authors: Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard
Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski,
Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven
Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan
Hendrycks
- Abstract要約: 表現工学の新たな領域(RepE)を特定し,特徴付ける
RepEは、神経細胞や回路ではなく、人口レベルの表現を解析の中心に置く。
これらの手法が、広範囲の安全関連問題に対してどのようにトラクションを提供するかを紹介する。
- 参考スコア(独自算出の注目度): 132.0398250233924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we identify and characterize the emerging area of
representation engineering (RepE), an approach to enhancing the transparency of
AI systems that draws on insights from cognitive neuroscience. RepE places
population-level representations, rather than neurons or circuits, at the
center of analysis, equipping us with novel methods for monitoring and
manipulating high-level cognitive phenomena in deep neural networks (DNNs). We
provide baselines and an initial analysis of RepE techniques, showing that they
offer simple yet effective solutions for improving our understanding and
control of large language models. We showcase how these methods can provide
traction on a wide range of safety-relevant problems, including honesty,
harmlessness, power-seeking, and more, demonstrating the promise of top-down
transparency research. We hope that this work catalyzes further exploration of
RepE and fosters advancements in the transparency and safety of AI systems.
- Abstract(参考訳): 本稿では,認知神経科学の知見に基づいて,AIシステムの透明性を高める手法である表現工学の新たな領域(RepE)を同定し,特徴付ける。
repeは、ニューロンや回路ではなく、人口レベルの表現を分析の中心に置き、深層ニューラルネットワーク(dnn)における高レベル認知現象の監視と操作のための新しい手法を我々に与えます。
我々はRepEテクニックのベースラインと初期分析を提供し、大規模な言語モデルの理解と制御を改善するための単純かつ効果的なソリューションを提供することを示した。
我々は、これらの手法が、誠実さ、無害さ、パワーシーキングなど、幅広い安全関連問題に対する牽引力を提供する方法を示し、トップダウンの透明性研究の可能性を実証する。
この取り組みがRepEのさらなる探索を触媒し、AIシステムの透明性と安全性の向上を促進することを願っている。
関連論文リスト
- Explaining Deep Neural Networks by Leveraging Intrinsic Methods [0.9790236766474201]
この論文はeXplainable AIの分野に貢献し、ディープニューラルネットワークの解釈可能性の向上に重点を置いている。
中心となる貢献は、これらのネットワークをより解釈しやすくすることを目的とした新しい技術の導入である。
第2に、この研究は、訓練された深層ニューラルネットワーク内のニューロンに関する新しい研究を掘り下げ、その活性化値に関連する見過ごされた現象に光を当てた。
論文 参考訳(メタデータ) (2024-07-17T01:20:17Z) - A Synergistic Approach In Network Intrusion Detection By Neurosymbolic AI [6.315966022962632]
本稿では,ニューロシンボリック人工知能(NSAI)をネットワーク侵入検知システム(NIDS)に組み込む可能性について検討する。
NSAIは、ディープラーニングのデータ駆動の強みと、象徴的なAIの論理的推論を組み合わせて、サイバーセキュリティにおける動的な課題に取り組む。
NIDSにNSAIを組み込むことは、複雑なネットワーク脅威の検出と解釈の両方において、潜在的な進歩を示す。
論文 参考訳(メタデータ) (2024-06-03T02:24:01Z) - Advancing Security in AI Systems: A Novel Approach to Detecting
Backdoors in Deep Neural Networks [3.489779105594534]
バックドアは、ディープニューラルネットワーク(DNN)上の悪意あるアクターと、データ処理のためのクラウドサービスによって悪用される。
提案手法は高度テンソル分解アルゴリズムを利用して,事前学習したDNNの重みを慎重に解析し,バックドアモデルとクリーンモデルとの区別を行う。
この進歩は、ネットワークシステムにおけるディープラーニングとAIのセキュリティを強化し、新興技術の脅威の進化に対して不可欠なサイバーセキュリティを提供する。
論文 参考訳(メタデータ) (2024-03-13T03:10:11Z) - Opening the Black-Box: A Systematic Review on Explainable AI in Remote Sensing [51.524108608250074]
ブラックボックス機械学習アプローチは、リモートセンシングにおける知識抽出における主要なモデリングパラダイムとなっている。
我々は、この分野における重要なトレンドを特定するための体系的なレビューを行い、新しい説明可能なAIアプローチに光を当てた。
また,課題と将来的な研究方向性について,より詳細な展望を述べる。
論文 参考訳(メタデータ) (2024-02-21T13:19:58Z) - Generative AI for Secure Physical Layer Communications: A Survey [80.0638227807621]
Generative Artificial Intelligence(GAI)は、AIイノベーションの最前線に立ち、多様なコンテンツを生成するための急速な進歩と非並行的な能力を示す。
本稿では,通信ネットワークの物理層におけるセキュリティ向上におけるGAIの様々な応用について,広範な調査を行う。
私たちは、物理的レイヤセキュリティの課題に対処する上で、GAIの役割を掘り下げ、通信の機密性、認証、可用性、レジリエンス、整合性に重点を置いています。
論文 参考訳(メタデータ) (2024-02-21T06:22:41Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - DISCOVER: Making Vision Networks Interpretable via Competition and
Dissection [11.028520416752325]
この研究は、ポストホック解釈可能性、特にネットワーク分割に寄与する。
私たちのゴールは、視覚タスクで訓練されたネットワークにおいて、各ニューロンの個々の機能を容易に発見できるフレームワークを提供することです。
論文 参考訳(メタデータ) (2023-10-07T21:57:23Z) - Aurora Guard: Reliable Face Anti-Spoofing via Mobile Lighting System [103.5604680001633]
紙写真やデジタルビデオの高解像度レンダリングリプレイに対する反偽造は、未解決の問題だ。
オーロラガード(Aurora Guard, AG)と呼ばれる, シンプルだが効果的な顔保護システムを提案する。
論文 参考訳(メタデータ) (2021-02-01T09:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。