Fugu-MT 論文翻訳(概要): Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

論文の概要: Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

arxiv url: http://arxiv.org/abs/2405.11841v1
Date: Mon, 20 May 2024 07:34:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 13:53:58.479666
Title: Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities
Title（参考訳）: ソーシャルインテリジェンスの評価とモデル化:人間とAIの能力の比較研究
Authors: Junqi Wang, Chunhui Zhang, Jiapeng Li, Yuxi Ma, Lixing Niu, Jiaheng Han, Yujia Peng, Yixin Zhu, Lifeng Fan,
Abstract要約: 本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
参考スコア（独自算出の注目度）: 29.18360187129556
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Facing the current debate on whether Large Language Models (LLMs) attain near-human intelligence levels (Mitchell & Krakauer, 2023; Bubeck et al., 2023; Kosinski, 2023; Shiffrin & Mitchell, 2023; Ullman, 2023), the current study introduces a benchmark for evaluating social intelligence, one of the most distinctive aspects of human cognition. We developed a comprehensive theoretical framework for social dynamics and introduced two evaluation tasks: Inverse Reasoning (IR) and Inverse Inverse Planning (IIP). Our approach also encompassed a computational model based on recursive Bayesian inference, adept at elucidating diverse human behavioral patterns. Extensive experiments and detailed analyses revealed that humans surpassed the latest GPT models in overall performance, zero-shot learning, one-shot generalization, and adaptability to multi-modalities. Notably, GPT models demonstrated social intelligence only at the most basic order (order = 0), in stark contrast to human social intelligence (order >= 2). Further examination indicated a propensity of LLMs to rely on pattern recognition for shortcuts, casting doubt on their possession of authentic human-level social intelligence. Our codes, dataset, appendix and human data are released at https://github.com/bigai-ai/Evaluate-n-Model-Social-Intelligence.
Abstract（参考訳）: Mitchell & Krakauer, 2023; Bubeck et al , 2023; Kosinski, 2023; Shiffrin & Mitchell, 2023; Ullman, 2023) がほぼ人間に近い知能レベルを達成したかどうかに関する現在の議論の中で、現在の研究では、人間の認知の最も特徴的な側面である社会的知能を評価するためのベンチマークが紹介されている。我々は,社会力学の総合的理論的枠組みを開発し,逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。また,人間の行動パターンの解明に長けた再帰的ベイズ推定に基づく計算モデルについても検討した。大規模な実験と詳細な分析により、人間は最新のGPTモデルを上回るパフォーマンス、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。特に、GPTモデルは、ヒトの社会的知能とは対照的に、最も基本的な順序(オーダー=0)でのみ社会的知能を示す。さらなる調査は、LLMがショートカットのパターン認識に頼ることの正当性を示し、真の人間レベルの社会知能の所有に疑念を抱いた。私たちのコード、データセット、付録、人間のデータはhttps://github.com/bigai-ai/Evaluate-n-Model-Social-Intelligence.comで公開されています。

関連論文リスト

What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文参考訳（メタデータ） (2025-06-07T23:19:27Z)
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文参考訳（メタデータ） (2025-05-16T11:41:19Z)
Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.7206754497888035]
本稿では,人工知能における常識を評価する新しい手法を提案する。モデルの判断と人口の対応を計測する。私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文参考訳（メタデータ） (2025-05-15T13:55:27Z)
Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
ソーシャルゲノム(Social Genome)は、マルチモーダルモデルのきめ細かいきめ細やかな社会的推論能力を示す最初のベンチマークである。相互作用の272のビデオと、これらの相互作用に関する推論に関連する1,486人の注釈付き推論トレースを含んでいる。社会ゲノムはまた、社会的推論における外部知識を研究するための最初のモデリング課題である。
論文参考訳（メタデータ） (2025-02-21T00:05:40Z)
Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models [26.333097337393685]
ユーザーが大きな言語モデル(LLM)を人為的に形作る傾向は、AI開発者、研究者、政策立案者への関心が高まっている。本稿では,現実的かつ多様な環境下での人為的 LLM の挙動を実証的に評価する手法を提案する。まず,14の人為的行動のマルチターン評価を開発する。次に,ユーザインタラクションのシミュレーションを用いて,スケーラブルで自動化されたアプローチを提案する。第3に,対話型大規模人体調査(N=1101)を実施し,実際のユーザの人文的知覚を予測するモデル行動を検証する。
論文参考訳（メタデータ） (2025-02-10T22:09:57Z)
Detecting AI-Generated Text in Educational Content: Leveraging Machine Learning and Explainable AI for Academic Integrity [1.1137087573421256]
本研究は、学生労働におけるAI生成コンテンツを検出するツールを提供することにより、学術的整合性を高めることを目的とする。我々は,CyberHumanAIデータセットを用いて,機械学習(ML)およびディープラーニング(DL)アルゴリズムの評価を行った。 GPTZeroは、Pure AI、Pure Human、Mixed Classの分類を行う場合、48.5%の精度で約77.5%の精度を達成した。
論文参考訳（メタデータ） (2025-01-06T18:34:20Z)
The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks [17.5336703613751]
本研究は、ウェクスラー成人インテリジェンス尺度(WAIS-IV)における大規模言語モデルと視覚言語モデルと人間のパフォーマンスに対するベンチマークである。ほとんどのモデルは、文字や数字の任意のシーケンスのようなトークンの保存、検索、操作において例外的な機能を示した。これらの長所にもかかわらず、我々はマルチモーダルモデルから知覚推論指標(PRI)の性能が一貫して劣っていることを観察した。
論文参考訳（メタデータ） (2024-10-09T19:22:26Z)
Position: Stop Making Unscientific AGI Performance Claims [6.343515088115924]
人工知能(AI)分野の発展は、人工知能(AGI)の「スパーク」を観察するための「完璧な嵐」を生み出した。我々は、モデルの潜在空間における有意義なパターンの発見は、AGIを支持する証拠とは見なされないことを議論し、実証的に実証した。我々は、モデル表現と興味のある変数の間の相関が、モデルが根底にある「真実」の関係について理解していることから「原因」であるとの誤解に対して、AIの方法論的設定と一般的な公開イメージの両方が理想的であると結論付けている。
論文参考訳（メタデータ） (2024-02-06T12:42:21Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
DeSIQ: Towards an Unbiased, Challenging Benchmark for Social Intelligence Understanding [60.84356161106069]
複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
論文参考訳（メタデータ） (2023-10-24T06:21:34Z)
Training Socially Aligned Language Models on Simulated Social Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-05-26T14:17:36Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文参考訳（メタデータ） (2022-10-24T14:58:58Z)
Social Processes: Self-Supervised Forecasting of Nonverbal Cues in Social Conversations [22.302509912465077]
我々は、社会的人間関係の分野におけるボトムアップな自己監督的アプローチの方向への第一歩を踏み出す。ソーシャルキュー予測のタスクを定式化し、ラベルなしの低レベル行動キューを多量に活用する。本稿では,ニューラル・プロセス(NP)ファミリー内における社会的に認識されるシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
論文参考訳（メタデータ） (2021-07-28T18:01:08Z)
Learning Human Rewards by Inferring Their Latent Intelligence Levels in Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-03-07T07:48:31Z)
Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文参考訳（メタデータ） (2020-07-07T17:19:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。