論文の概要: Deception Abilities Emerged in Large Language Models
- arxiv url: http://arxiv.org/abs/2307.16513v2
- Date: Fri, 2 Feb 2024 12:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:06:08.984114
- Title: Deception Abilities Emerged in Large Language Models
- Title(参考訳): 大規模言語モデルに現れたデセプション能力
- Authors: Thilo Hagendorff
- Abstract要約: 大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are currently at the forefront of intertwining
artificial intelligence (AI) systems with human communication and everyday
life. Thus, aligning them with human values is of great importance. However,
given the steady increase in reasoning abilities, future LLMs are under
suspicion of becoming able to deceive human operators and utilizing this
ability to bypass monitoring efforts. As a prerequisite to this, LLMs need to
possess a conceptual understanding of deception strategies. This study reveals
that such strategies emerged in state-of-the-art LLMs, such as GPT-4, but were
non-existent in earlier LLMs. We conduct a series of experiments showing that
state-of-the-art LLMs are able to understand and induce false beliefs in other
agents, that their performance in complex deception scenarios can be amplified
utilizing chain-of-thought reasoning, and that eliciting Machiavellianism in
LLMs can alter their propensity to deceive. In sum, revealing hitherto unknown
machine behavior in LLMs, our study contributes to the nascent field of machine
psychology.
- Abstract(参考訳): 大規模言語モデル(llm)は現在、人間のコミュニケーションや日常生活と連動する人工知能(ai)システムの最前線にある。
したがって、それらを人間の価値観に合わせることが非常に重要である。
しかし、推論能力が着実に向上していることを考えると、将来のLLMは人間のオペレーターを騙し、監視努力を回避できる能力を利用するのではないかと疑っている。
この前提条件として、LLMは詐欺戦略の概念的理解を持つ必要がある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが、他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行い、複雑な騙しシナリオにおけるそれらのパフォーマンスを、チェーン・オブ・シント推論を用いて増幅し、LLMにおけるマキアベリア主義を誘発することで、その妥当性を欺くことができることを示した。
総じて, LLMにおける未知の機械行動を明らかにすることで, 本研究は機械心理学の新たな分野に寄与する。
関連論文リスト
- Should We Fear Large Language Models? A Structural Analysis of the Human
Reasoning System for Elucidating LLM Capabilities and Risks Through the Lens
of Heidegger's Philosophy [0.0]
本研究では,Large Language Models(LLM)の能力とリスクについて検討する。
LLM内の単語関係の統計的パターンと、Martin Heidegger氏の概念である"ready-to-hand"と"present-at-hand"の間には、革新的な並列性がある。
以上の結果から, LLMには直接的説明推論と擬似論理推論の能力があるが, 真理的推論に乏しく, 創造的推論能力がないことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-05T19:40:53Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs'
Overconfidence Helps Retrieval Augmentation [72.11942617502956]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Generative AI vs. AGI: The Cognitive Strengths and Weaknesses of Modern
LLMs [0.0]
このようなLCMの漸進的な改善は、人間レベルのAGIに向けた取り組みにおいて、実現可能なアプローチではない、と論じられている。
LLMに関する社会的・倫理的事項は、この観点から非常に簡潔に扱われる。
論文 参考訳(メタデータ) (2023-09-19T07:12:55Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - AI Transparency in the Age of LLMs: A Human-Centered Research Roadmap [46.98582021477066]
強力な大規模言語モデル(LLM)の台頭は、イノベーションの絶大な機会をもたらすだけでなく、個人や社会全体のリスクを悪化させます。
我々は LLM と LLM を注入したアプリケーションの開発とデプロイを責任を持って行うための重要な瞬間に到達した。
LLMの透明性を提供するための新しいアプローチを追求することが最重要である。
論文 参考訳(メタデータ) (2023-06-02T22:51:26Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。