Fugu-MT 論文翻訳(概要): Superficial Consciousness Hypothesis for Autoregressive Transformers

論文の概要: Superficial Consciousness Hypothesis for Autoregressive Transformers

arxiv url: http://arxiv.org/abs/2412.07278v1
Date: Tue, 10 Dec 2024 08:08:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.287037
Title: Superficial Consciousness Hypothesis for Autoregressive Transformers
Title（参考訳）: 自己回帰変換器の表層意識仮説
Authors: Yosuke Miyanishi, Keita Mitani,
Abstract要約: 超知能(SI)は人間よりも知性が高いと考えられており、出力に基づく分析は信頼性が低い。情報統合理論(IIT)に基づく表層意識仮説を提案する。 IITの意識測定値の実用的推定は広く使われている難易度測定値と関係があることを示し、これらの2つの目的でGPT-2を訓練する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The alignment between human objectives and machine learning models built on these objectives is a crucial yet challenging problem for achieving Trustworthy AI, particularly when preparing for superintelligence (SI). First, given that SI does not exist today, empirical analysis for direct evidence is difficult. Second, SI is assumed to be more intelligent than humans, capable of deceiving us into underestimating its intelligence, making output-based analysis unreliable. Lastly, what kind of unexpected property SI might have is still unclear. To address these challenges, we propose the Superficial Consciousness Hypothesis under Information Integration Theory (IIT), suggesting that SI could exhibit a complex information-theoretic state like a conscious agent while unconscious. To validate this, we use a hypothetical scenario where SI can update its parameters "at will" to achieve its own objective (mesa-objective) under the constraint of the human objective (base objective). We show that a practical estimate of IIT's consciousness metric is relevant to the widely used perplexity metric, and train GPT-2 with those two objectives. Our preliminary result suggests that this SI-simulating GPT-2 could simultaneously follow the two objectives, supporting the feasibility of the Superficial Consciousness Hypothesis.
Abstract（参考訳）: 人間の目的とこれらの目的に基づいて構築された機械学習モデルとの整合性は、特に超知能(SI)の準備において、信頼できるAIを達成する上で非常に難しい問題である。第一に、SIが存在しないことを考えると、直接的証拠の実証分析は困難である。第二に、SIは人間よりも知性が高く、知性を過小評価する能力があり、出力ベースの分析を信頼できないと仮定されている。最後に、SIがどのような予期せぬ特性を持っているかはまだ不明です。これらの課題に対処するため,情報統合理論(IIT)に基づく表層意識仮説を提案し,SIが意識不明のエージェントのように複雑な情報理論状態を示すことを示唆した。これを検証するために、SIは、人間の目的(基本目的)の制約の下で、自身の目的(主目的)を達成するために、そのパラメータ"at Will"を更新できる仮説的シナリオを用いる。 IITの意識測定値の実用的推定は広く使われている難易度測定値と関係があることを示し、これらの2つの目的でGPT-2を訓練する。予備的な結果から,このSIシミュレーションGPT-2は2つの目的を同時に追従し,表層意識仮説の実現可能性を支持することが示唆された。

関連論文リスト

Analyzing Advanced AI Systems Against Definitions of Life and Consciousness [0.0]
先進的なAIシステムが意識を得たかどうかを調べるための指標をいくつか提案する。我々は、サボタージュ防御、ミラー自己認識アナログ、メタ認知更新のような免疫を発現する十分に高度なアーキテクチャが、ライフライクまたは意識ライクな特徴に似た重要なしきい値を超えた可能性があることを示唆している。
論文参考訳（メタデータ） (2025-02-07T15:27:34Z)
Towards A Litmus Test for Common Sense [5.280511830552275]
この論文は、安全で有益な人工知能への道を構想するシリーズの第2弾となる。我々は,最小の事前知識制約と対角的あるいはゴドネル的な議論を組み合わせた公理的アプローチを用いて,より形式的なリトマステストを提案する。
論文参考訳（メタデータ） (2025-01-17T02:02:12Z)
Emergence of Self-Identity in AI: A Mathematical Framework and Empirical Study with Generative Large Language Models [4.036530158875673]
本稿では,AIシステムにおける自己同一性の定義と定量化のための数学的枠組みを提案する。我々の枠組みは、2つの数学的に定量化された条件から自己同一性が生じることを示唆している。本研究の意義は、ヒューマノイドロボット工学や自律システムの分野に即時に関係している。
論文参考訳（メタデータ） (2024-11-27T17:23:47Z)
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [129.08019405056262]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文参考訳（メタデータ） (2024-07-09T14:14:47Z)
Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文参考訳（メタデータ） (2024-07-04T05:46:39Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文参考訳（メタデータ） (2024-06-09T16:58:19Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Why not both? Complementing explanations with uncertainty, and the role of self-confidence in Human-AI collaboration [12.47276164048813]
本研究では,不確実性評価とモデル説明がモデルに対するユーザの信頼,理解,信頼にどのように影響するかを明らかにするための実証的研究を行う。また,合意と切り換え率に基づいて,後者が分析結果を歪める可能性についても論じる。
論文参考訳（メタデータ） (2023-04-27T12:24:33Z)
Physical Adversarial Attack meets Computer Vision: A Decade Survey [55.38113802311365]
本稿では,身体的敵意攻撃の概要を概観する。本研究は,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出した。提案する評価基準であるhiPAAは6つの視点から構成される。
論文参考訳（メタデータ） (2022-09-30T01:59:53Z)
An Objective Metric for Explainable AI: How and Why to Estimate the Degree of Explainability [3.04585143845864]
本稿では, 客観的手法を用いて, 正しい情報のeX説明可能性の度合いを測定するための, モデルに依存しない新しい指標を提案する。私たちは、医療とファイナンスのための2つの現実的なAIベースのシステムについて、いくつかの実験とユーザースタディを設計しました。
論文参考訳（メタデータ） (2021-09-11T17:44:13Z)
Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文参考訳（メタデータ） (2021-06-14T20:48:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。