Fugu-MT 論文翻訳(概要): DeSIQ: Towards an Unbiased, Challenging Benchmark for Social Intelligence Understanding

論文の概要: DeSIQ: Towards an Unbiased, Challenging Benchmark for Social Intelligence Understanding

arxiv url: http://arxiv.org/abs/2310.18359v1
Date: Tue, 24 Oct 2023 06:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-05 13:56:00.763305
Title: DeSIQ: Towards an Unbiased, Challenging Benchmark for Social Intelligence Understanding
Title（参考訳）: DeSIQ: ソーシャルインテリジェンス理解のための不偏のベンチマークを目指す
Authors: Xiao-Yu Guo and Yuan-Fang Li and Gholamreza Haffari
Abstract要約: 複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
参考スコア（独自算出の注目度）: 60.84356161106069
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social intelligence is essential for understanding and reasoning about human expressions, intents and interactions. One representative benchmark for its study is Social Intelligence Queries (Social-IQ), a dataset of multiple-choice questions on videos of complex social interactions. We define a comprehensive methodology to study the soundness of Social-IQ, as the soundness of such benchmark datasets is crucial to the investigation of the underlying research problem. Our analysis reveals that Social-IQ contains substantial biases, which can be exploited by a moderately strong language model to learn spurious correlations to achieve perfect performance without being given the context or even the question. We introduce DeSIQ, a new challenging dataset, constructed by applying simple perturbations to Social-IQ. Our empirical analysis shows DeSIQ significantly reduces the biases in the original Social-IQ dataset. Furthermore, we examine and shed light on the effect of model size, model style, learning settings, commonsense knowledge, and multi-modality on the new benchmark performance. Our new dataset, observations and findings open up important research questions for the study of social intelligence.
Abstract（参考訳）: 社会的知性は人間の表現、意図、相互作用を理解するのに不可欠である。ソーシャルインテリジェンス・クエリー(Social Intelligence Queries, Social-IQ)は、複雑なソーシャルインタラクションのビデオに関する複数の質問のデータセットである。このようなベンチマークデータセットの健全性は基礎となる研究課題の調査に不可欠であるため,ソーシャルiqの健全性を研究するための包括的方法論を定めている。分析の結果,Social-IQにはかなりのバイアスがあることが判明した。このバイアスは適度に強い言語モデルによって活用され,適切な相関関係を学習し,文脈や質問を伴わずに完全なパフォーマンスを達成することができる。ソーシャルIQに単純な摂動を適用して構築した新しい挑戦的データセットであるDeSIQを紹介する。我々の実証分析は、DeSIQがオリジナルのSocial-IQデータセットのバイアスを著しく減少させることを示している。さらに,モデルサイズ,モデルスタイル,学習設定,コモンセンス知識,マルチモダリティがベンチマーク性能に与える影響について検討し,考察した。我々の新しいデータセット、観察、発見は、社会的知性の研究に重要な研究課題を開く。

関連論文リスト

SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。 SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文参考訳（メタデータ） (2025-06-05T05:51:35Z)
SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.68365456601248]
社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。 SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文参考訳（メタデータ） (2025-05-29T17:47:36Z)
R^3-VQA: "Read the Room" by Video Social Reasoning [26.694917467429207]
「部屋を読む」は人間の日常生活において重要な社会的推論能力である。我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
論文参考訳（メタデータ） (2025-05-07T05:55:45Z)
The Human Robot Social Interaction (HSRI) Dataset: Benchmarking Foundational Models' Social Reasoning [49.32390524168273]
本研究は,実世界のソーシャルインタラクションにおいて,人工知能(AI)エージェントの社会的推論を促進することを目的としている。我々は、言語モデル(LM)と基礎モデル(FM)の能力をベンチマークするために、大規模な実世界のヒューマンロボット社会インタラクション(HSRI)データセットを導入する。私たちのデータセットは、400以上の現実世界の人間のソーシャルロボットインタラクションビデオと10K以上のアノテーションで構成され、ロボットの社会的エラー、能力、合理性、修正行動の詳細を記述しています。
論文参考訳（メタデータ） (2025-04-07T06:27:02Z)
VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence [22.086567828557683]
ソーシャルインテリジェンスクエリ(Social Intelligence Queries、Social-IQ)は、モデルのソーシャルインテリジェンスレベルを評価するための主要なマルチモーダルベンチマークである。本稿では,視覚的説明可能・接地型人工知能(VEGAS)モデルを提案する。
論文参考訳（メタデータ） (2025-04-03T02:48:21Z)
Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
ソーシャルゲノム(Social Genome)は、マルチモーダルモデルのきめ細かいきめ細やかな社会的推論能力を示す最初のベンチマークである。相互作用の272のビデオと、これらの相互作用に関する推論に関連する1,486人の注釈付き推論トレースを含んでいる。社会ゲノムはまた、社会的推論における外部知識を研究するための最初のモデリング課題である。
論文参考訳（メタデータ） (2025-02-21T00:05:40Z)
Socialized Learning: A Survey of the Paradigm Shift for Edge Intelligence in Networked Systems [62.252355444948904]
本稿では,エッジインテリジェンス(EI)と社会学習(SL)の統合に関する文献レビューの結果について述べる。 SLは、エージェントの協調能力と集団知性を増幅することを目的とした、社会的原則と行動に基づく学習パラダイムである。ソーシャル化アーキテクチャ、ソーシャル化トレーニング、ソーシャル化推論の3つの統合コンポーネントについて詳しく検討し、その強みと弱点を分析した。
論文参考訳（メタデータ） (2024-04-20T11:07:29Z)
Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions [67.60397632819202]
ソーシャルインテリジェントAIエージェント(Social-AI)の構築は、多分野、マルチモーダルな研究目標である。我々は、社会AIを前進させるために、基礎となる技術的課題と、コンピューティングコミュニティ全体にわたる研究者のためのオープンな質問を特定します。
論文参考訳（メタデータ） (2024-04-17T02:57:42Z)
Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文参考訳（メタデータ） (2024-03-11T10:35:53Z)
Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文参考訳（メタデータ） (2024-02-28T00:22:42Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
Semantic Categorization of Social Knowledge for Commonsense Question Answering [13.343786884695323]
本稿では,SocialIQA を例として,コモンセンスな質問応答タスクに必要なセマンティクスの分類を提案する。従来の研究とは異なり、社会知識のセマンティックな分類でモデルを観察すると、比較的単純なモデルで同等のパフォーマンスが得られる。
論文参考訳（メタデータ） (2021-09-11T02:56:14Z)
Characterizing Datasets for Social Visual Question Answering, and the New TinySocial Dataset [0.7313653675718068]
ソーシャルインテリジェンスには、ビデオを見て、社会的および理論関連コンテンツに関する質問に答える機能が含まれている。社会的視覚的質問応答(社会的VQA)は、人間とAIエージェントの両方における社会的推論を研究するための貴重な方法論として浮上している。本稿では,ソーシャルVQAデータセットの作成と特徴付け方法について議論する。
論文参考訳（メタデータ） (2020-10-08T03:20:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。