論文の概要: Jekyll-and-Hyde Tipping Point in an AI's Behavior
- arxiv url: http://arxiv.org/abs/2504.20980v1
- Date: Tue, 29 Apr 2025 17:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.025297
- Title: Jekyll-and-Hyde Tipping Point in an AI's Behavior
- Title(参考訳): AIの振る舞いにおけるジキルとハイドのティッピングポイント
- Authors: Neil F. Johnson, Frank Yingjie Huo,
- Abstract要約: LLMのアウトプットが間違っていた場合、AIへの信頼が損なわれます。
ここでは、第一原理から、ジキル・アンド・ハイドの転換点が生じたときの正確な公式を導出することにより、この急激なニーズに対処する。
AIの注意が広がる原因が、急に薄くなっていくのがわかります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trust in AI is undermined by the fact that there is no science that predicts -- or that can explain to the public -- when an LLM's output (e.g. ChatGPT) is likely to tip mid-response to become wrong, misleading, irrelevant or dangerous. With deaths and trauma already being blamed on LLMs, this uncertainty is even pushing people to treat their 'pet' LLM more politely to 'dissuade' it (or its future Artificial General Intelligence offspring) from suddenly turning on them. Here we address this acute need by deriving from first principles an exact formula for when a Jekyll-and-Hyde tipping point occurs at LLMs' most basic level. Requiring only secondary school mathematics, it shows the cause to be the AI's attention spreading so thin it suddenly snaps. This exact formula provides quantitative predictions for how the tipping-point can be delayed or prevented by changing the prompt and the AI's training. Tailored generalizations will provide policymakers and the public with a firm platform for discussing any of AI's broader uses and risks, e.g. as a personal counselor, medical advisor, decision-maker for when to use force in a conflict situation. It also meets the need for clear and transparent answers to questions like ''should I be polite to my LLM?''
- Abstract(参考訳): AIに対する信頼は、LSMのアウトプット(例えばChatGPT)が、ミス、誤解、無関係、あるいは危険になる可能性があると予測する科学が存在しないという事実によって損なわれている。
LLMの死因や外傷が既に報告されていることから、この不確実性は、人々が「ペット」のLSMをもっと丁寧に治療し、それ(または将来の人工知能(AI)の子孫)が突然それらに反応するのを妨げている。
ここでは、第一原理からJekyll-and-Hyde のチップポイントが LLMs の最も基本的なレベルで発生したときの正確な公式を導出することにより、この急激なニーズに対処する。
中等教育の数学しか必要とせず、AIの注意があまりに薄くなり、突然スナップする原因が示されます。
この正確な公式は、プロンプトとAIのトレーニングを変更することで、チップポイントの遅延や防止を定量的に予測する。
個人カウンセラー、医師、意思決定者など、AIの幅広い用途とリスクを議論するプラットフォームを、政策立案者や一般大衆に提供する。
また、「LLMに礼儀正しくしたらいいのか」というような質問に対して、明確で透明な回答の必要性も満たしている。
関連論文リスト
- Going Whole Hog: A Philosophical Defense of AI Cognition [0.0]
我々は、AI哲学における一般的な方法論に反対し、低レベルの計算の詳細に基づく開始点を拒絶する。
認知状態の全スイートについて論じるために,我々は「ホリスティック・ネットワーク・アセスメント」を採用している。
我々は、人間の概念的スキームを超えた「アリアン」コンテンツを有するLLMの可能性について推測することで結論付ける。
論文 参考訳(メタデータ) (2025-04-18T11:36:25Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Capturing AI's Attention: Physics of Repetition, Hallucination, Bias and Beyond [0.0]
理論は、出力反復、幻覚、有害な内容など、優れたAI課題の分析を可能にする。
その2体形式は、LCMがうまく機能する理由を示唆するが、一般化された3体注意によって、そのようなAIがさらにうまく動作することを示唆している。
論文 参考訳(メタデータ) (2025-04-06T20:10:05Z) - Prompting Science Report 1: Prompt Engineering is Complicated and Contingent [0.0]
これは、ビジネス、教育、政策リーダーがAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの最初のものだ。
LLM(Large Language Model)がベンチマークをパスするかどうかを測定するための標準は存在しない。
特定のプロンプトアプローチが LLM の特定の質問に答えられるかどうかを事前に知るのは難しい。
論文 参考訳(メタデータ) (2025-03-04T21:09:12Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
本稿では,CRaFT(Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning)を提案する。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z) - On the consistent reasoning paradox of intelligence and optimal trust in AI: The power of 'I don't know' [79.69412622010249]
一貫性推論(Consistent reasoning)は、人間の知性の中心にある、同等のタスクを扱う能力である。
CRPは、一貫性のある推論は誤認を意味する、と論じている。
論文 参考訳(メタデータ) (2024-08-05T10:06:53Z) - What's in an embedding? Would a rose by any embedding smell as sweet? [0.0]
大規模言語モデル(LLM)は、真の「理解」と知識を「理解」する能力に欠けるとしてしばしば批判される。
我々は, LLM が「幾何学的」な経験的「下地」を発達させ, NLP の様々な応用に適していると考えられることを示唆する。
これらの制限を克服するために、LLMはシンボリックAI要素を含む知識の「代数的」表現と統合されるべきである。
論文 参考訳(メタデータ) (2024-06-11T01:10:40Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Getting from Generative AI to Trustworthy AI: What LLMs might learn from
Cyc [0.0]
ジェネレーティブAI(Generative AI)は、AIに対して最もポピュラーなアプローチであり、必ずしも正しいとは限らないアウトプットを生成するために訓練された大規模な言語モデル(LLM)で構成されている。
我々は、現在のアプローチに関連する多くの制限を理論的に解決できるAIに代わるアプローチについて議論する。
論文 参考訳(メタデータ) (2023-07-31T16:29:28Z) - Won't Get Fooled Again: Answering Questions with False Premises [79.8761549830075]
プレトレーニング言語モデル(PLM)は、様々な分野で前例のない可能性を示している。
PLMは「太陽は何人の目を持っているのか?」といったトリッキーな質問によって容易に騙される傾向がある。
PLMはすでにそのような疑問に答えるために必要な知識を持っている。
論文 参考訳(メタデータ) (2023-07-05T16:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。