Fugu-MT 論文翻訳(概要): I Think, Therefore I am: Benchmarking Awareness of Large Language Models Using AwareBench

論文の概要: I Think, Therefore I am: Benchmarking Awareness of Large Language Models Using AwareBench

arxiv url: http://arxiv.org/abs/2401.17882v2
Date: Fri, 16 Feb 2024 09:47:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 19:06:39.756840
Title: I Think, Therefore I am: Benchmarking Awareness of Large Language Models Using AwareBench
Title（参考訳）: AwareBenchを用いた大規模言語モデルのベンチマーク
Authors: Yuan Li, Yue Huang, Yuli Lin, Siyuan Wu, Yao Wan and Lichao Sun
Abstract要約: 大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。 LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。 13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
参考スコア（独自算出の注目度）: 20.909504977779978
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Do large language models (LLMs) exhibit any forms of awareness similar to humans? In this paper, we introduce AwareBench, a benchmark designed to evaluate awareness in LLMs. Drawing from theories in psychology and philosophy, we define awareness in LLMs as the ability to understand themselves as AI models and to exhibit social intelligence. Subsequently, we categorize awareness in LLMs into five dimensions, including capability, mission, emotion, culture, and perspective. Based on this taxonomy, we create a dataset called AwareEval, which contains binary, multiple-choice, and open-ended questions to assess LLMs' understandings of specific awareness dimensions. Our experiments, conducted on 13 LLMs, reveal that the majority of them struggle to fully recognize their capabilities and missions while demonstrating decent social intelligence. We conclude by connecting awareness of LLMs with AI alignment and safety, emphasizing its significance to the trustworthy and ethical development of LLMs. Our dataset and code are available at https://github.com/HowieHwong/Awareness-in-LLM.
Abstract（参考訳）: 大規模言語モデル(llm)は、人間と同じような認識形態を示すか? 本稿では,llmにおける意識評価のためのベンチマークである awarebench を紹介する。心理学や哲学の理論から、LLMにおける認識は、自分自身をAIモデルとして理解し、社会的知性を示す能力として定義する。次に,LLMの認知度を,能力,使命,感情,文化,視点の5つの次元に分類した。この分類に基づいて、llmの特定の認識次元に対する理解を評価するために、バイナリ、マルチチョイス、オープンエンドの質問を含む awareeval というデータセットを作成する。我々の実験は13 llmで行われ、彼らの能力と任務を完全に認識するのに苦戦し、まともな社会的知性を示すことが判明した。我々は、LLMの認識とAIのアライメントと安全性を結びつけ、LLMの信頼性と倫理的発展の重要性を強調した。私たちのデータセットとコードはhttps://github.com/howiehwong/awareness-in-llmで利用可能です。

関連論文リスト

Exploring Consciousness in LLMs: A Systematic Survey of Theories, Implementations, and Frontier Risks [46.93509559847712]
意識は人間の心の最も深い特徴の1つである。大規模言語モデル(LLM)が前例のないペースで発展するにつれ、知性と意識に関する疑問がますます重要になっている。
論文参考訳（メタデータ） (2025-05-26T10:40:52Z)
Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。現在のLSMは、人間に対する信頼の欠如を示す。本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T06:22:19Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective [22.30892836263764]
人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、興味深い疑問が浮かび上がっている。 LLMはToMとソーシャル化の機能の観点からどのように機能するか? EgoSocialArenaは,LLMのToMと社会化能力を評価するための新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-08T16:55:51Z)
A Perspective on Large Language Models, Intelligent Machines, and Knowledge Acquisition [0.6138671548064355]
大言語モデル(LLM)は「知識」を生成できることで知られている。しかし、抽象概念と推論を理解するためのLLMと人間の能力の間には大きなギャップがある。我々はこれらの問題を、人間の知識獲得とチューリングテストの哲学的な文脈で論じる。
論文参考訳（メタデータ） (2024-08-13T03:25:49Z)
Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs [38.86647602211699]
ChatGPTのようなAIアシスタントは、"私は大きな言語モデルです"と言うことで、ユーザに応答するように訓練されています。一般への展開など,現在の状況に気付いていますか? 我々は、モデル自身の知識とその状況について、状況認識として言及する。
論文参考訳（メタデータ） (2024-07-05T17:57:02Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文参考訳（メタデータ） (2024-01-15T08:19:22Z)
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文参考訳（メタデータ） (2023-11-14T13:24:19Z)
Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文参考訳（メタデータ） (2023-11-03T12:19:22Z)
Large Language Models: The Need for Nuance in Current Debates and a Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。本論文は,LLM能力の批判において再発する3点を批判的に評価する。 LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文参考訳（メタデータ） (2023-10-30T15:51:04Z)
Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文参考訳（メタデータ） (2023-10-02T16:27:36Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。本研究の目的は,LLMの自己理解能力を評価することである。
論文参考訳（メタデータ） (2023-05-29T15:30:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。