論文の概要: DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding
- arxiv url: http://arxiv.org/abs/2310.18359v1
- Date: Tue, 24 Oct 2023 06:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:56:00.763305
- Title: DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding
- Title(参考訳): DeSIQ: ソーシャルインテリジェンス理解のための不偏のベンチマークを目指す
- Authors: Xiao-Yu Guo and Yuan-Fang Li and Gholamreza Haffari
- Abstract要約: 複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。
分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。
ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
- 参考スコア(独自算出の注目度): 60.84356161106069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social intelligence is essential for understanding and reasoning about human
expressions, intents and interactions. One representative benchmark for its
study is Social Intelligence Queries (Social-IQ), a dataset of multiple-choice
questions on videos of complex social interactions. We define a comprehensive
methodology to study the soundness of Social-IQ, as the soundness of such
benchmark datasets is crucial to the investigation of the underlying research
problem. Our analysis reveals that Social-IQ contains substantial biases, which
can be exploited by a moderately strong language model to learn spurious
correlations to achieve perfect performance without being given the context or
even the question. We introduce DeSIQ, a new challenging dataset, constructed
by applying simple perturbations to Social-IQ. Our empirical analysis shows
DeSIQ significantly reduces the biases in the original Social-IQ dataset.
Furthermore, we examine and shed light on the effect of model size, model
style, learning settings, commonsense knowledge, and multi-modality on the new
benchmark performance. Our new dataset, observations and findings open up
important research questions for the study of social intelligence.
- Abstract(参考訳): 社会的知性は人間の表現、意図、相互作用を理解するのに不可欠である。
ソーシャルインテリジェンス・クエリー(Social Intelligence Queries, Social-IQ)は、複雑なソーシャルインタラクションのビデオに関する複数の質問のデータセットである。
このようなベンチマークデータセットの健全性は基礎となる研究課題の調査に不可欠であるため,ソーシャルiqの健全性を研究するための包括的方法論を定めている。
分析の結果,Social-IQにはかなりのバイアスがあることが判明した。このバイアスは適度に強い言語モデルによって活用され,適切な相関関係を学習し,文脈や質問を伴わずに完全なパフォーマンスを達成することができる。
ソーシャルIQに単純な摂動を適用して構築した新しい挑戦的データセットであるDeSIQを紹介する。
我々の実証分析は、DeSIQがオリジナルのSocial-IQデータセットのバイアスを著しく減少させることを示している。
さらに,モデルサイズ,モデルスタイル,学習設定,コモンセンス知識,マルチモダリティがベンチマーク性能に与える影響について検討し,考察した。
我々の新しいデータセット、観察、発見は、社会的知性の研究に重要な研究課題を開く。
関連論文リスト
- Socialized Learning: A Survey of the Paradigm Shift for Edge Intelligence in Networked Systems [62.252355444948904]
本稿では,エッジインテリジェンス(EI)と社会学習(SL)の統合に関する文献レビューの結果について述べる。
SLは、エージェントの協調能力と集団知性を増幅することを目的とした、社会的原則と行動に基づく学習パラダイムである。
ソーシャル化アーキテクチャ、ソーシャル化トレーニング、ソーシャル化推論の3つの統合コンポーネントについて詳しく検討し、その強みと弱点を分析した。
論文 参考訳(メタデータ) (2024-04-20T11:07:29Z) - Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions [67.60397632819202]
ソーシャルインテリジェントAIエージェント(Social-AI)の構築は、多分野、マルチモーダルな研究目標である。
我々は、社会AIを前進させるために、基礎となる技術的課題と、コンピューティングコミュニティ全体にわたる研究者のためのオープンな質問を特定します。
論文 参考訳(メタデータ) (2024-04-17T02:57:42Z) - Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。
人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文 参考訳(メタデータ) (2024-03-11T10:35:53Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Semantic Categorization of Social Knowledge for Commonsense Question
Answering [13.343786884695323]
本稿では,SocialIQA を例として,コモンセンスな質問応答タスクに必要なセマンティクスの分類を提案する。
従来の研究とは異なり、社会知識のセマンティックな分類でモデルを観察すると、比較的単純なモデルで同等のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2021-09-11T02:56:14Z) - Characterizing Datasets for Social Visual Question Answering, and the
New TinySocial Dataset [0.7313653675718068]
ソーシャルインテリジェンスには、ビデオを見て、社会的および理論関連コンテンツに関する質問に答える機能が含まれている。
社会的視覚的質問応答(社会的VQA)は、人間とAIエージェントの両方における社会的推論を研究するための貴重な方法論として浮上している。
本稿では,ソーシャルVQAデータセットの作成と特徴付け方法について議論する。
論文 参考訳(メタデータ) (2020-10-08T03:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。