論文の概要: Representation Engineering: A Top-Down Approach to AI Transparency
- arxiv url: http://arxiv.org/abs/2310.01405v3
- Date: Tue, 10 Oct 2023 08:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:05:51.439600
- Title: Representation Engineering: A Top-Down Approach to AI Transparency
- Title(参考訳): Representation Engineering: AIの透明性に対するトップダウンアプローチ
- Authors: Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard
Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski,
Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven
Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan
Hendrycks
- Abstract要約: 表現工学の新たな領域(RepE)を特定し,特徴付ける
RepEは、神経細胞や回路ではなく、人口レベルの表現を解析の中心に置く。
これらの手法が、広範囲の安全関連問題に対してどのようにトラクションを提供するかを紹介する。
- 参考スコア(独自算出の注目度): 132.0398250233924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we identify and characterize the emerging area of
representation engineering (RepE), an approach to enhancing the transparency of
AI systems that draws on insights from cognitive neuroscience. RepE places
population-level representations, rather than neurons or circuits, at the
center of analysis, equipping us with novel methods for monitoring and
manipulating high-level cognitive phenomena in deep neural networks (DNNs). We
provide baselines and an initial analysis of RepE techniques, showing that they
offer simple yet effective solutions for improving our understanding and
control of large language models. We showcase how these methods can provide
traction on a wide range of safety-relevant problems, including honesty,
harmlessness, power-seeking, and more, demonstrating the promise of top-down
transparency research. We hope that this work catalyzes further exploration of
RepE and fosters advancements in the transparency and safety of AI systems.
- Abstract(参考訳): 本稿では,認知神経科学の知見に基づいて,AIシステムの透明性を高める手法である表現工学の新たな領域(RepE)を同定し,特徴付ける。
repeは、ニューロンや回路ではなく、人口レベルの表現を分析の中心に置き、深層ニューラルネットワーク(dnn)における高レベル認知現象の監視と操作のための新しい手法を我々に与えます。
我々はRepEテクニックのベースラインと初期分析を提供し、大規模な言語モデルの理解と制御を改善するための単純かつ効果的なソリューションを提供することを示した。
我々は、これらの手法が、誠実さ、無害さ、パワーシーキングなど、幅広い安全関連問題に対する牽引力を提供する方法を示し、トップダウンの透明性研究の可能性を実証する。
この取り組みがRepEのさらなる探索を触媒し、AIシステムの透明性と安全性の向上を促進することを願っている。
関連論文リスト
- Advancing Security in AI Systems: A Novel Approach to Detecting
Backdoors in Deep Neural Networks [3.489779105594534]
バックドアは、ディープニューラルネットワーク(DNN)上の悪意あるアクターと、データ処理のためのクラウドサービスによって悪用される。
提案手法は高度テンソル分解アルゴリズムを利用して,事前学習したDNNの重みを慎重に解析し,バックドアモデルとクリーンモデルとの区別を行う。
この進歩は、ネットワークシステムにおけるディープラーニングとAIのセキュリティを強化し、新興技術の脅威の進化に対して不可欠なサイバーセキュリティを提供する。
論文 参考訳(メタデータ) (2024-03-13T03:10:11Z) - Opening the Black-Box: A Systematic Review on Explainable AI in Remote
Sensing [52.110707276938]
ブラックボックス機械学習アプローチは、リモートセンシングにおける知識抽出のための主要なモデリングパラダイムとなっている。
我々は、リモートセンシングにおいて、説明可能なAIがどのように使われているかを示す重要なトレンドを特定するために、体系的なレビューを行う。
私たちは、新しい説明可能なAIアプローチと、特定のリモートセンシング課題に対処する新たな方向性に光を当てました。
論文 参考訳(メタデータ) (2024-02-21T13:19:58Z) - Emergent Explainability: Adding a causal chain to neural network
inference [0.0]
本稿では,創発的コミュニケーション(EmCom)による説明可能な人工知能(xAI)の強化のための理論的枠組みを提案する。
我々は、EmComのAIシステムへの新たな統合を探求し、入力と出力の間の従来の連想関係から、より微妙で因果的解釈へのパラダイムシフトを提供する。
本稿は、このアプローチの理論的基盤、潜在的に広い応用、そして、責任と透明なAIシステムに対するニーズの増大と整合性について論じる。
論文 参考訳(メタデータ) (2024-01-29T02:28:39Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - A Survey on Transferability of Adversarial Examples across Deep Neural
Networks [54.47263618782188]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性によって"ブラックボックス"攻撃が可能になり、ターゲットモデルの詳細な知識の必要性を回避することができる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - DISCOVER: Making Vision Networks Interpretable via Competition and
Dissection [11.028520416752325]
この研究は、ポストホック解釈可能性、特にネットワーク分割に寄与する。
私たちのゴールは、視覚タスクで訓練されたネットワークにおいて、各ニューロンの個々の機能を容易に発見できるフレームワークを提供することです。
論文 参考訳(メタデータ) (2023-10-07T21:57:23Z) - Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on
Neuro-Symbolic Computing [66.91310801654548]
ニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。
NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示す。
論文 参考訳(メタデータ) (2022-10-28T04:38:10Z) - Transparency of Deep Neural Networks for Medical Image Analysis: A
Review of Interpretability Methods [3.3918638314432936]
ディープニューラルネットワークは、多くのタスクにおいて、臨床医と同じまたはより良いパフォーマンスを示している。
現在のディープ・ニューラル・ソリューションは、意思決定プロセスに関する具体的な知識の欠如からブラックボックスと呼ばれる。
通常の臨床ワークフローに組み込む前に、ディープニューラルネットワークの解釈可能性を保証する必要がある。
論文 参考訳(メタデータ) (2021-11-01T01:42:26Z) - Aurora Guard: Reliable Face Anti-Spoofing via Mobile Lighting System [103.5604680001633]
紙写真やデジタルビデオの高解像度レンダリングリプレイに対する反偽造は、未解決の問題だ。
オーロラガード(Aurora Guard, AG)と呼ばれる, シンプルだが効果的な顔保護システムを提案する。
論文 参考訳(メタデータ) (2021-02-01T09:17:18Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。