論文の概要: I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench
- arxiv url: http://arxiv.org/abs/2401.17882v2
- Date: Fri, 16 Feb 2024 09:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:06:39.756840
- Title: I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench
- Title(参考訳): AwareBenchを用いた大規模言語モデルのベンチマーク
- Authors: Yuan Li, Yue Huang, Yuli Lin, Siyuan Wu, Yao Wan and Lichao Sun
- Abstract要約: 大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。
LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。
13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 20.909504977779978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Do large language models (LLMs) exhibit any forms of awareness similar to
humans? In this paper, we introduce AwareBench, a benchmark designed to
evaluate awareness in LLMs. Drawing from theories in psychology and philosophy,
we define awareness in LLMs as the ability to understand themselves as AI
models and to exhibit social intelligence. Subsequently, we categorize
awareness in LLMs into five dimensions, including capability, mission, emotion,
culture, and perspective. Based on this taxonomy, we create a dataset called
AwareEval, which contains binary, multiple-choice, and open-ended questions to
assess LLMs' understandings of specific awareness dimensions. Our experiments,
conducted on 13 LLMs, reveal that the majority of them struggle to fully
recognize their capabilities and missions while demonstrating decent social
intelligence. We conclude by connecting awareness of LLMs with AI alignment and
safety, emphasizing its significance to the trustworthy and ethical development
of LLMs. Our dataset and code are available at
https://github.com/HowieHwong/Awareness-in-LLM.
- Abstract(参考訳): 大規模言語モデル(llm)は、人間と同じような認識形態を示すか?
本稿では,llmにおける意識評価のためのベンチマークである awarebench を紹介する。
心理学や哲学の理論から、LLMにおける認識は、自分自身をAIモデルとして理解し、社会的知性を示す能力として定義する。
次に,LLMの認知度を,能力,使命,感情,文化,視点の5つの次元に分類した。
この分類に基づいて、llmの特定の認識次元に対する理解を評価するために、バイナリ、マルチチョイス、オープンエンドの質問を含む awareeval というデータセットを作成する。
我々の実験は13 llmで行われ、彼らの能力と任務を完全に認識するのに苦戦し、まともな社会的知性を示すことが判明した。
我々は、LLMの認識とAIのアライメントと安全性を結びつけ、LLMの信頼性と倫理的発展の重要性を強調した。
私たちのデータセットとコードはhttps://github.com/howiehwong/awareness-in-llmで利用可能です。
関連論文リスト
- Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of
Multimodal Large Language Models in Perception [22.888797134331895]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文 参考訳(メタデータ) (2024-01-15T08:19:22Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
我々は,Large Language Models (LLM) の共感能力を評価することを提案する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Concept-Oriented Deep Learning with Large Language Models [0.4548998901594072]
大規模言語モデル(LLM)は、テキスト生成やAIチャットボットを含む多くの自然言語タスクやアプリケーションで成功している。
また、概念指向ディープラーニング(CODL)のための有望な新技術である。
画像からの概念抽出,画像からの概念グラフ抽出,概念学習など,CODLにおける視覚言語LLMの概念理解,最も重要なマルチモーダルLLMの活用について論じる。
論文 参考訳(メタデータ) (2023-06-29T16:47:11Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。