論文の概要: Superficial Consciousness Hypothesis for Autoregressive Transformers
- arxiv url: http://arxiv.org/abs/2412.07278v1
- Date: Tue, 10 Dec 2024 08:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:35:45.884867
- Title: Superficial Consciousness Hypothesis for Autoregressive Transformers
- Title(参考訳): 自己回帰変換器の表層意識仮説
- Authors: Yosuke Miyanishi, Keita Mitani,
- Abstract要約: 超知能(SI)は人間よりも知性が高いと考えられており、出力に基づく分析は信頼性が低い。
情報統合理論(IIT)に基づく表層意識仮説を提案する。
IITの意識測定値の実用的推定は広く使われている難易度測定値と関係があることを示し、これらの2つの目的でGPT-2を訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The alignment between human objectives and machine learning models built on these objectives is a crucial yet challenging problem for achieving Trustworthy AI, particularly when preparing for superintelligence (SI). First, given that SI does not exist today, empirical analysis for direct evidence is difficult. Second, SI is assumed to be more intelligent than humans, capable of deceiving us into underestimating its intelligence, making output-based analysis unreliable. Lastly, what kind of unexpected property SI might have is still unclear. To address these challenges, we propose the Superficial Consciousness Hypothesis under Information Integration Theory (IIT), suggesting that SI could exhibit a complex information-theoretic state like a conscious agent while unconscious. To validate this, we use a hypothetical scenario where SI can update its parameters "at will" to achieve its own objective (mesa-objective) under the constraint of the human objective (base objective). We show that a practical estimate of IIT's consciousness metric is relevant to the widely used perplexity metric, and train GPT-2 with those two objectives. Our preliminary result suggests that this SI-simulating GPT-2 could simultaneously follow the two objectives, supporting the feasibility of the Superficial Consciousness Hypothesis.
- Abstract(参考訳): 人間の目的とこれらの目的に基づいて構築された機械学習モデルとの整合性は、特に超知能(SI)の準備において、信頼できるAIを達成する上で非常に難しい問題である。
第一に、SIが存在しないことを考えると、直接的証拠の実証分析は困難である。
第二に、SIは人間よりも知性が高く、知性を過小評価する能力があり、出力ベースの分析を信頼できないと仮定されている。
最後に、SIがどのような予期せぬ特性を持っているかはまだ不明です。
これらの課題に対処するため,情報統合理論(IIT)に基づく表層意識仮説を提案し,SIが意識不明のエージェントのように複雑な情報理論状態を示すことを示唆した。
これを検証するために、SIは、人間の目的(基本目的)の制約の下で、自身の目的(主目的)を達成するために、そのパラメータ"at Will"を更新できる仮説的シナリオを用いる。
IITの意識測定値の実用的推定は広く使われている難易度測定値と関係があることを示し、これらの2つの目的でGPT-2を訓練する。
予備的な結果から,このSIシミュレーションGPT-2は2つの目的を同時に追従し,表層意識仮説の実現可能性を支持することが示唆された。
関連論文リスト
- Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [129.08019405056262]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である
MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-09T14:14:47Z) - Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。
我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文 参考訳(メタデータ) (2024-07-04T05:46:39Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - On the meaning of uncertainty for ethical AI: philosophy and practice [10.591284030838146]
これは、数学的推論に倫理的考察をもたらす重要な方法であると主張する。
我々は、2021年12月のOmicron型COVID-19の拡散について、英国政府に助言するために使用される競合モデルの文脈内でこれらのアイデアを実証する。
論文 参考訳(メタデータ) (2023-09-11T15:13:36Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Why not both? Complementing explanations with uncertainty, and the role
of self-confidence in Human-AI collaboration [12.47276164048813]
本研究では,不確実性評価とモデル説明がモデルに対するユーザの信頼,理解,信頼にどのように影響するかを明らかにするための実証的研究を行う。
また,合意と切り換え率に基づいて,後者が分析結果を歪める可能性についても論じる。
論文 参考訳(メタデータ) (2023-04-27T12:24:33Z) - Physical Adversarial Attack meets Computer Vision: A Decade Survey [55.38113802311365]
本稿では,身体的敵意攻撃の概要を概観する。
本研究は,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出した。
提案する評価基準であるhiPAAは6つの視点から構成される。
論文 参考訳(メタデータ) (2022-09-30T01:59:53Z) - An Objective Metric for Explainable AI: How and Why to Estimate the
Degree of Explainability [3.04585143845864]
本稿では, 客観的手法を用いて, 正しい情報のeX説明可能性の度合いを測定するための, モデルに依存しない新しい指標を提案する。
私たちは、医療とファイナンスのための2つの現実的なAIベースのシステムについて、いくつかの実験とユーザースタディを設計しました。
論文 参考訳(メタデータ) (2021-09-11T17:44:13Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Dynamic Cognition Applied to Value Learning in Artificial Intelligence [0.0]
この分野の数人の研究者が、堅牢で有益で安全な人工知能の概念を開発しようとしている。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
この問題に対する可能なアプローチは、SEDのような理論モデルを使用することである。
論文 参考訳(メタデータ) (2020-05-12T03:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。