論文の概要: I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench
- arxiv url: http://arxiv.org/abs/2401.17882v2
- Date: Fri, 16 Feb 2024 09:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:06:39.756840
- Title: I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench
- Title(参考訳): AwareBenchを用いた大規模言語モデルのベンチマーク
- Authors: Yuan Li, Yue Huang, Yuli Lin, Siyuan Wu, Yao Wan and Lichao Sun
- Abstract要約: 大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。
LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。
13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 20.909504977779978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Do large language models (LLMs) exhibit any forms of awareness similar to
humans? In this paper, we introduce AwareBench, a benchmark designed to
evaluate awareness in LLMs. Drawing from theories in psychology and philosophy,
we define awareness in LLMs as the ability to understand themselves as AI
models and to exhibit social intelligence. Subsequently, we categorize
awareness in LLMs into five dimensions, including capability, mission, emotion,
culture, and perspective. Based on this taxonomy, we create a dataset called
AwareEval, which contains binary, multiple-choice, and open-ended questions to
assess LLMs' understandings of specific awareness dimensions. Our experiments,
conducted on 13 LLMs, reveal that the majority of them struggle to fully
recognize their capabilities and missions while demonstrating decent social
intelligence. We conclude by connecting awareness of LLMs with AI alignment and
safety, emphasizing its significance to the trustworthy and ethical development
of LLMs. Our dataset and code are available at
https://github.com/HowieHwong/Awareness-in-LLM.
- Abstract(参考訳): 大規模言語モデル(llm)は、人間と同じような認識形態を示すか?
本稿では,llmにおける意識評価のためのベンチマークである awarebench を紹介する。
心理学や哲学の理論から、LLMにおける認識は、自分自身をAIモデルとして理解し、社会的知性を示す能力として定義する。
次に,LLMの認知度を,能力,使命,感情,文化,視点の5つの次元に分類した。
この分類に基づいて、llmの特定の認識次元に対する理解を評価するために、バイナリ、マルチチョイス、オープンエンドの質問を含む awareeval というデータセットを作成する。
我々の実験は13 llmで行われ、彼らの能力と任務を完全に認識するのに苦戦し、まともな社会的知性を示すことが判明した。
我々は、LLMの認識とAIのアライメントと安全性を結びつけ、LLMの信頼性と倫理的発展の重要性を強調した。
私たちのデータセットとコードはhttps://github.com/howiehwong/awareness-in-llmで利用可能です。
関連論文リスト
- Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective [22.30892836263764]
人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、興味深い疑問が浮かび上がっている。
LLMはToMとソーシャル化の機能の観点からどのように機能するか?
EgoSocialArenaは,LLMのToMと社会化能力を評価するための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-08T16:55:51Z) - A Perspective on Large Language Models, Intelligent Machines, and Knowledge Acquisition [0.6138671548064355]
大言語モデル(LLM)は「知識」を生成できることで知られている。
しかし、抽象概念と推論を理解するためのLLMと人間の能力の間には大きなギャップがある。
我々はこれらの問題を、人間の知識獲得とチューリングテストの哲学的な文脈で論じる。
論文 参考訳(メタデータ) (2024-08-13T03:25:49Z) - Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs [38.86647602211699]
ChatGPTのようなAIアシスタントは、"私は大きな言語モデルです"と言うことで、ユーザに応答するように訓練されています。
一般への展開など,現在の状況に気付いていますか?
我々は、モデル自身の知識とその状況について、状況認識として言及する。
論文 参考訳(メタデータ) (2024-07-05T17:57:02Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文 参考訳(メタデータ) (2024-01-15T08:19:22Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。