論文の概要: Taming AI Bots: Controllability of Neural States in Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.18449v1
- Date: Mon, 29 May 2023 03:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:53:59.839307
- Title: Taming AI Bots: Controllability of Neural States in Large Language
Models
- Title(参考訳): taming ai bots: 大規模言語モデルにおける神経状態の制御可能性
- Authors: Stefano Soatto, Paulo Tabuada, Pratik Chaudhari, Tian Yu Liu
- Abstract要約: まず、分析に適する「意味の形式的定義」を導入する。
そして、大きな言語モデル(LLM)が視覚的に訓練される意味のあるデータ」を特徴付ける。
意味の空間に制限された場合、AIボットは制御可能であることを示す。
- 参考スコア(独自算出の注目度): 81.1573516550699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the question of whether an agent can, by suitable choice of
prompts, control an AI bot to any state. To that end, we first introduce a
formal definition of ``meaning'' that is amenable to analysis. Then, we
characterize ``meaningful data'' on which large language models (LLMs) are
ostensibly trained, and ``well-trained LLMs'' through conditions that are
largely met by today's LLMs. While a well-trained LLM constructs an embedding
space of meanings that is Euclidean, meanings themselves do not form a vector
(linear) subspace, but rather a quotient space within. We then characterize the
subset of meanings that can be reached by the state of the LLMs for some input
prompt, and show that a well-trained bot can reach any meaning albeit with
small probability. We then introduce a stronger notion of controllability as
{\em almost certain reachability}, and show that, when restricted to the space
of meanings, an AI bot is controllable. We do so after introducing a functional
characterization of attentive AI bots, and finally derive necessary and
sufficient conditions for controllability. The fact that AI bots are
controllable means that an adversary could steer them towards any state.
However, the sampling process can be designed to counteract adverse actions and
avoid reaching undesirable regions of state space before their boundary is
crossed.
- Abstract(参考訳): エージェントが適切なプロンプトの選択によって、任意の状態にAIボットを制御できるかどうかという問題に取り組む。
その目的のために、まず、分析に適した ``meaning''' の形式的定義を導入する。
次に,大規模言語モデル (LLM) を視覚的に訓練した ' ` meaningful data' と,今日の LLM でほぼ満たされている条件下で '` well-trained LLMs' を特徴付ける。
十分に訓練された LLM はユークリッド (Euclidean) という意味の埋め込み空間を構成するが、それ自体はベクトル(線型)部分空間ではなく、むしろ商空間である。
次に、入力プロンプトのためにLLMの状態によって到達可能な意味のサブセットを特徴付け、十分に訓練されたボットが小さな確率でどんな意味でも到達可能であることを示す。
次に、制御可能性のより強固な概念を {\em almost certain reachability} として導入し、意味空間に制限された場合、aiボットは制御可能であることを示す。
我々は、注意深いAIボットの機能的特徴を導入し、最終的に制御性に必要な十分な条件を導き出す。
AIボットが制御可能であるという事実は、敵がそれらをあらゆる状態に向けて操ることができることを意味している。
しかし、サンプリングプロセスは、逆作用を防ぎ、その境界を越える前に状態空間の望ましくない領域に到達することを避けるように設計することができる。
関連論文リスト
- Strong and weak alignment of large language models with human values [1.6590638305972631]
AI(Artificial Intelligent)システムの負の影響を最小限に抑えるには、人間の価値観に合わせる必要がある。
これは、大きな言語モデル(LLM)のようなAIシステムにおいて、人間の価値が浮かび上がるリスクを示す状況を認識するために必要である、と我々は主張する。
そこで我々は,ジョン・サールの有名な提案を拡張して,「単語遷移辞書付き中国語室」と呼ぶ新しい思考実験を提案する。
論文 参考訳(メタデータ) (2024-08-05T11:27:51Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - Recurrent Neural Language Models as Probabilistic Finite-state Automata [66.23172872811594]
RNN LMが表現できる確率分布のクラスについて検討する。
単純なRNNは確率的有限状態オートマトンの部分クラスと同値であることを示す。
これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示す。
論文 参考訳(メタデータ) (2023-10-08T13:36:05Z) - Getting from Generative AI to Trustworthy AI: What LLMs might learn from
Cyc [0.0]
ジェネレーティブAI(Generative AI)は、AIに対して最もポピュラーなアプローチであり、必ずしも正しいとは限らないアウトプットを生成するために訓練された大規模な言語モデル(LLM)で構成されている。
我々は、現在のアプローチに関連する多くの制限を理論的に解決できるAIに代わるアプローチについて議論する。
論文 参考訳(メタデータ) (2023-07-31T16:29:28Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Provably Sample-Efficient RL with Side Information about Latent Dynamics [12.461789905893026]
本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。
我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T21:07:03Z) - On Adversarial Examples and Stealth Attacks in Artificial Intelligence
Systems [62.997667081978825]
本稿では,汎用人工知能(AI)システムに対する2種類の多元性行動の評価と分析を行うための公式な枠組みを提案する。
最初のクラスは、逆例を含み、誤分類を引き起こす入力データの小さな摂動の導入を懸念する。
第2のクラスは、ここで初めて導入され、ステルス攻撃と名付けられたもので、AIシステム自体に対する小さな摂動を伴う。
論文 参考訳(メタデータ) (2020-04-09T10:56:53Z) - Self-explaining AI as an alternative to interpretable AI [0.0]
二重降下は、深層ニューラルネットワークがデータポイント間のスムーズな補間によって動作することを示している。
複雑な現実世界のデータに基づいてトレーニングされたニューラルネットワークは、本質的に解釈が困難で、外挿を求めると失敗する傾向がある。
自己説明型AIは、決定と説明の両方の信頼性レベルとともに、人間に理解可能な説明を提供することができる。
論文 参考訳(メタデータ) (2020-02-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。