論文の概要: Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities
- arxiv url: http://arxiv.org/abs/2405.11841v1
- Date: Mon, 20 May 2024 07:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:53:58.479666
- Title: Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities
- Title(参考訳): ソーシャルインテリジェンスの評価とモデル化:人間とAIの能力の比較研究
- Authors: Junqi Wang, Chunhui Zhang, Jiapeng Li, Yuxi Ma, Lixing Niu, Jiaheng Han, Yujia Peng, Yixin Zhu, Lifeng Fan,
- Abstract要約: 本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。
我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。
大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
- 参考スコア(独自算出の注目度): 29.18360187129556
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Facing the current debate on whether Large Language Models (LLMs) attain near-human intelligence levels (Mitchell & Krakauer, 2023; Bubeck et al., 2023; Kosinski, 2023; Shiffrin & Mitchell, 2023; Ullman, 2023), the current study introduces a benchmark for evaluating social intelligence, one of the most distinctive aspects of human cognition. We developed a comprehensive theoretical framework for social dynamics and introduced two evaluation tasks: Inverse Reasoning (IR) and Inverse Inverse Planning (IIP). Our approach also encompassed a computational model based on recursive Bayesian inference, adept at elucidating diverse human behavioral patterns. Extensive experiments and detailed analyses revealed that humans surpassed the latest GPT models in overall performance, zero-shot learning, one-shot generalization, and adaptability to multi-modalities. Notably, GPT models demonstrated social intelligence only at the most basic order (order = 0), in stark contrast to human social intelligence (order >= 2). Further examination indicated a propensity of LLMs to rely on pattern recognition for shortcuts, casting doubt on their possession of authentic human-level social intelligence. Our codes, dataset, appendix and human data are released at https://github.com/bigai-ai/Evaluate-n-Model-Social-Intelligence.
- Abstract(参考訳): Mitchell & Krakauer, 2023; Bubeck et al , 2023; Kosinski, 2023; Shiffrin & Mitchell, 2023; Ullman, 2023) がほぼ人間に近い知能レベルを達成したかどうかに関する現在の議論の中で、現在の研究では、人間の認知の最も特徴的な側面である社会的知能を評価するためのベンチマークが紹介されている。
我々は,社会力学の総合的理論的枠組みを開発し,逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。
また,人間の行動パターンの解明に長けた再帰的ベイズ推定に基づく計算モデルについても検討した。
大規模な実験と詳細な分析により、人間は最新のGPTモデルを上回るパフォーマンス、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
特に、GPTモデルは、ヒトの社会的知能とは対照的に、最も基本的な順序(オーダー=0)でのみ社会的知能を示す。
さらなる調査は、LLMがショートカットのパターン認識に頼ることの正当性を示し、真の人間レベルの社会知能の所有に疑念を抱いた。
私たちのコード、データセット、付録、人間のデータはhttps://github.com/bigai-ai/Evaluate-n-Model-Social-Intelligence.comで公開されています。
関連論文リスト
- The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks [17.5336703613751]
本研究は、ウェクスラー成人インテリジェンス尺度(WAIS-IV)における大規模言語モデルと視覚言語モデルと人間のパフォーマンスに対するベンチマークである。
ほとんどのモデルは、文字や数字の任意のシーケンスのようなトークンの保存、検索、操作において例外的な機能を示した。
これらの長所にもかかわらず、我々はマルチモーダルモデルから知覚推論指標(PRI)の性能が一貫して劣っていることを観察した。
論文 参考訳(メタデータ) (2024-10-09T19:22:26Z) - Position: Stop Making Unscientific AGI Performance Claims [6.343515088115924]
人工知能(AI)分野の発展は、人工知能(AGI)の「スパーク」を観察するための「完璧な嵐」を生み出した。
我々は、モデルの潜在空間における有意義なパターンの発見は、AGIを支持する証拠とは見なされないことを議論し、実証的に実証した。
我々は、モデル表現と興味のある変数の間の相関が、モデルが根底にある「真実」の関係について理解していることから「原因」であるとの誤解に対して、AIの方法論的設定と一般的な公開イメージの両方が理想的であると結論付けている。
論文 参考訳(メタデータ) (2024-02-06T12:42:21Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding [60.84356161106069]
複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。
分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。
ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
論文 参考訳(メタデータ) (2023-10-24T06:21:34Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - Social Processes: Self-Supervised Forecasting of Nonverbal Cues in
Social Conversations [22.302509912465077]
我々は、社会的人間関係の分野におけるボトムアップな自己監督的アプローチの方向への第一歩を踏み出す。
ソーシャルキュー予測のタスクを定式化し、ラベルなしの低レベル行動キューを多量に活用する。
本稿では,ニューラル・プロセス(NP)ファミリー内における社会的に認識されるシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-28T18:01:08Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。