論文の概要: EgoSocial: Benchmarking Proactive Intervention Ability of Omnimodal LLMs via Egocentric Social Interaction Perception
- arxiv url: http://arxiv.org/abs/2510.13105v1
- Date: Wed, 15 Oct 2025 02:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.479746
- Title: EgoSocial: Benchmarking Proactive Intervention Ability of Omnimodal LLMs via Egocentric Social Interaction Perception
- Title(参考訳): エゴソーシャル:エゴセントリックな社会的相互作用知覚によるOmnimodal LLMの予防的介入能力のベンチマーク
- Authors: Xijun Wang, Tanay Sharma, Achin Kulshrestha, Abhimitra Meka, Aveek Purohit, Dinesh Manocha,
- Abstract要約: EgoSocialは、大規模なエゴセントリックなデータセットで、1万3500のソーシャルビデオクエストペアがある。
EgoSoDは、ソーシャルダイナミクスを堅牢に識別するためのエンドツーエンドの手法である。
- 参考スコア(独自算出の注目度): 43.018822527263694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AR/VR technologies become integral to daily life, there's a growing need for AI that understands human social dynamics from an egocentric perspective. However, current LLMs often lack the social awareness to discern when to intervene as AI assistant. This leads to constant, socially unaware responses that may disrupt natural conversation and negatively impact user focus. To address these limitations, we introduce EgoSocial, a large-scale egocentric dataset with 13,500 social video-question pairs, specifically designed to benchmark intervention in social interaction perception. We also present an in-depth analysis of current omnimodal LLMs (OLLMs) to assess their effectiveness in detecting diverse social contextual cues. Experiments show that OLLMs still struggle to detect the intervention timing (14.4% for Gemini 2.5 Pro). We also propose EgoSoD (EgoSocial Detection), an end-to-end method for robustly discerning social dynamics. Informed by our OLLM analysis, EgoSoD integrates multimodal contextual cues (e.g., audio and visual cues) into a social thinking graph, dynamically modeling participants and interactions. Our method proactively detects intervention timing and social interactions, precisely determining when to intervene. Our EgoSoD improves Phi-4 by 45.6% and Gemini 2.5 Pro by 9.9% on Intervention Timing performance, and improves Phi-4 by 20.4% and Gemini 2.5 Pro by 6.9% on overall Social Interaction performance. We will release the dataset and code soon.
- Abstract(参考訳): AR/VR技術が日常生活に不可欠なものになるにつれ、人間社会のダイナミクスをエゴセントリックな視点から理解するAIの必要性が高まっています。
しかし、現在のLLMは、いつAIアシスタントとして介入すべきかを識別する社会的認識を欠いていることが多い。
これは、自然な会話を妨害し、ユーザーの焦点に悪影響を及ぼす可能性のある、社会的に無意識な反応をもたらす。
これらの制限に対処するため、EgoSocialは13500対のソーシャルビデオ検索ペアを備えた大規模なエゴセントリックなデータセットで、特にソーシャルインタラクションの知覚における介入のベンチマークを目的としている。
また,現在LLM (Omnimodal LLMs) を詳細に分析し,社会的文脈の多様性を検出する上での有効性について検討した。
実験によると、OLLMは介入のタイミング(Gemini 2.5 Proの14.4%)を検出するのに依然として苦労している。
EgoSoD (EgoSocial Detection) も提案する。
EgoSoDは、OLLM分析にインフォームドされ、マルチモーダルなコンテキストキュー(例えば、音声と視覚のキュー)をソーシャルシンキンググラフに統合し、参加者とインタラクションを動的にモデル化する。
本手法は介入タイミングと社会的相互作用を積極的に検出し,いつ介入すべきかを正確に決定する。
EgoSoDはPhi-4を45.6%改善し、Gemini 2.5 Proを9.9%改善し、Phi-4を20.4%改善し、Gemini 2.5 Proを6.9%改善した。
近いうちにデータセットとコードを公開します。
関連論文リスト
- SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - The Human Robot Social Interaction (HSRI) Dataset: Benchmarking Foundational Models' Social Reasoning [49.32390524168273]
本研究は,実世界のソーシャルインタラクションにおいて,人工知能(AI)エージェントの社会的推論を促進することを目的としている。
我々は、言語モデル(LM)と基礎モデル(FM)の能力をベンチマークするために、大規模な実世界のヒューマンロボット社会インタラクション(HSRI)データセットを導入する。
私たちのデータセットは、400以上の現実世界の人間のソーシャルロボットインタラクションビデオと10K以上のアノテーションで構成され、ロボットの社会的エラー、能力、合理性、修正行動の詳細を記述しています。
論文 参考訳(メタデータ) (2025-04-07T06:27:02Z) - I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy [13.68625980741047]
本研究では,Large Language Model (LLM) に基づくエージェントの相互作用パターンについて,厳密な社会的階層を特徴とする文脈で検討する。
本研究では,警備員と囚人エージェントが関与するシミュレートシナリオにおける説得と反社会的行動の2つの現象について検討した。
論文 参考訳(メタデータ) (2024-10-09T17:45:47Z) - EgoSocialArena: Benchmarking the Social Intelligence of Large Language Models from a First-person Perspective [22.30892836263764]
社会知能は認知知能、状況知能、行動知能の3つの柱の上に構築されている。
EgoSocialArenaは、個人の視点から、大規模言語モデルの社会的インテリジェンスを体系的に評価することを目的としている。
論文 参考訳(メタデータ) (2024-10-08T16:55:51Z) - InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context [27.740204336800687]
大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。
我々は,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価する新しい枠組みであるInterIntentを開発した。
論文 参考訳(メタデータ) (2024-06-18T02:02:15Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。