論文の概要: DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding
- arxiv url: http://arxiv.org/abs/2310.18359v1
- Date: Tue, 24 Oct 2023 06:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:56:00.763305
- Title: DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding
- Title(参考訳): DeSIQ: ソーシャルインテリジェンス理解のための不偏のベンチマークを目指す
- Authors: Xiao-Yu Guo and Yuan-Fang Li and Gholamreza Haffari
- Abstract要約: 複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。
分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。
ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
- 参考スコア(独自算出の注目度): 60.84356161106069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social intelligence is essential for understanding and reasoning about human
expressions, intents and interactions. One representative benchmark for its
study is Social Intelligence Queries (Social-IQ), a dataset of multiple-choice
questions on videos of complex social interactions. We define a comprehensive
methodology to study the soundness of Social-IQ, as the soundness of such
benchmark datasets is crucial to the investigation of the underlying research
problem. Our analysis reveals that Social-IQ contains substantial biases, which
can be exploited by a moderately strong language model to learn spurious
correlations to achieve perfect performance without being given the context or
even the question. We introduce DeSIQ, a new challenging dataset, constructed
by applying simple perturbations to Social-IQ. Our empirical analysis shows
DeSIQ significantly reduces the biases in the original Social-IQ dataset.
Furthermore, we examine and shed light on the effect of model size, model
style, learning settings, commonsense knowledge, and multi-modality on the new
benchmark performance. Our new dataset, observations and findings open up
important research questions for the study of social intelligence.
- Abstract(参考訳): 社会的知性は人間の表現、意図、相互作用を理解するのに不可欠である。
ソーシャルインテリジェンス・クエリー(Social Intelligence Queries, Social-IQ)は、複雑なソーシャルインタラクションのビデオに関する複数の質問のデータセットである。
このようなベンチマークデータセットの健全性は基礎となる研究課題の調査に不可欠であるため,ソーシャルiqの健全性を研究するための包括的方法論を定めている。
分析の結果,Social-IQにはかなりのバイアスがあることが判明した。このバイアスは適度に強い言語モデルによって活用され,適切な相関関係を学習し,文脈や質問を伴わずに完全なパフォーマンスを達成することができる。
ソーシャルIQに単純な摂動を適用して構築した新しい挑戦的データセットであるDeSIQを紹介する。
我々の実証分析は、DeSIQがオリジナルのSocial-IQデータセットのバイアスを著しく減少させることを示している。
さらに,モデルサイズ,モデルスタイル,学習設定,コモンセンス知識,マルチモダリティがベンチマーク性能に与える影響について検討し,考察した。
我々の新しいデータセット、観察、発見は、社会的知性の研究に重要な研究課題を開く。
関連論文リスト
- Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。
人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文 参考訳(メタデータ) (2024-03-11T10:35:53Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language
Agents [110.61079677969957]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Self-supervised Hypergraph Representation Learning for Sociological
Analysis [52.514283292498405]
本稿では,データマイニング技術と社会学的行動基準のさらなる融合を支援するための基本的な方法論を提案する。
まず,効率的なハイパーグラフ認識と高速グラフ構築フレームワークを提案する。
第2に,ユーザからユーザへのソーシャルインフルエンスを学習するためのハイパーグラフベースニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-22T01:20:29Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - ISEEQ: Information Seeking Question Generation using Dynamic
Meta-Information Retrieval and Knowledge Graphs [42.98709486732392]
本稿では,エンドユーザからの短い初期質問に基づいて,ISQ(Information Seeking Questions)を生成する新しい手法を提案する。
ISEEQは知識グラフを使用してユーザクエリを強化し、関連するコンテキストパスを取得する。
CISエージェントの開発を促進するために,ISEEQは高品質なISQを生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-13T04:02:13Z) - Semantic Categorization of Social Knowledge for Commonsense Question
Answering [13.343786884695323]
本稿では,SocialIQA を例として,コモンセンスな質問応答タスクに必要なセマンティクスの分類を提案する。
従来の研究とは異なり、社会知識のセマンティックな分類でモデルを観察すると、比較的単純なモデルで同等のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2021-09-11T02:56:14Z) - COSMO: Conditional SEQ2SEQ-based Mixture Model for Zero-Shot Commonsense
Question Answering [50.65816570279115]
社会的文脈の暗黙的な原因と影響の特定は、機械が常識的推論を実行できるようにする駆動能力である。
この領域における現在のアプローチには、目に見えない状況に直面して常識推論を行う能力がない。
本稿では,動的かつ多様なコンテンツ生成機能を備えた条件付きSEQ2SEQベースの混合モデル(COSMO)を提案する。
論文 参考訳(メタデータ) (2020-11-02T07:08:19Z) - Characterizing Datasets for Social Visual Question Answering, and the
New TinySocial Dataset [0.7313653675718068]
ソーシャルインテリジェンスには、ビデオを見て、社会的および理論関連コンテンツに関する質問に答える機能が含まれている。
社会的視覚的質問応答(社会的VQA)は、人間とAIエージェントの両方における社会的推論を研究するための貴重な方法論として浮上している。
本稿では,ソーシャルVQAデータセットの作成と特徴付け方法について議論する。
論文 参考訳(メタデータ) (2020-10-08T03:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。