Fugu-MT 論文翻訳(概要): Omni-MMSI: Toward Identity-attributed Social Interaction Understanding

論文の概要: Omni-MMSI: Toward Identity-attributed Social Interaction Understanding

arxiv url: http://arxiv.org/abs/2604.00267v1
Date: Tue, 31 Mar 2026 21:49:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.739696
Title: Omni-MMSI: Toward Identity-attributed Social Interaction Understanding
Title（参考訳）: Omni-MMSI:アイデンティティによるソーシャルインタラクションの理解を目指して
Authors: Xinpeng Li, Bolin Lai, Hardy Chen, Shijian Deng, Cihang Xie, Yuyin Zhou, James Matthew Rehg, Yapeng Tian,
Abstract要約: Omni-MMSIは、生音声、視覚、音声入力から包括的な社会的相互作用を理解することを必要とする新しいタスクである。 Omni-MMSI-Rという参照誘導型パイプラインを提案し,ツールを用いた自己認識型ソーシャル・キューを製作し,チェーン・オブ・フォー・ソーシャル・推論を行う。
参考スコア（独自算出の注目度）: 59.595514276506265
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce Omni-MMSI, a new task that requires comprehensive social interaction understanding from raw audio, vision, and speech input. The task involves perceiving identity-attributed social cues (e.g., who is speaking what) and reasoning about the social interaction (e.g., whom the speaker refers to). This task is essential for developing AI assistants that can perceive and respond to human interactions. Unlike prior studies that operate on oracle-preprocessed social cues, Omni-MMSI reflects realistic scenarios where AI assistants must perceive and reason from raw data. However, existing pipelines and multi-modal LLMs perform poorly on Omni-MMSI because they lack reliable identity attribution capabilities, which leads to inaccurate social interaction understanding. To address this challenge, we propose Omni-MMSI-R, a reference-guided pipeline that produces identity-attributed social cues with tools and conducts chain-of-thought social reasoning. To facilitate this pipeline, we construct participant-level reference pairs and curate reasoning annotations on top of the existing datasets. Experiments demonstrate that Omni-MMSI-R outperforms advanced LLMs and counterparts on Omni-MMSI. Project page: https://sampson-lee.github.io/omni-mmsi-project-page.
Abstract（参考訳）: Omni-MMSIは、生音声、視覚、音声入力から包括的な社会的相互作用を理解することを必要とする新しいタスクである。タスクは、アイデンティティに焦点をあてた社会的手がかり(eg )を知覚し、社会的相互作用(eg )について推論することである。このタスクは、人間のインタラクションを知覚し、反応できるAIアシスタントを開発するために不可欠である。 Omni-MMSIは、オラクル前処理のソーシャルキューを操作する以前の研究とは異なり、AIアシスタントが生データから認識し、推論しなければならない現実的なシナリオを反映している。しかし、既存のパイプラインやマルチモーダルLLMは、信頼性の高いアイデンティティ帰属能力が欠如しているため、不正確な社会的相互作用の理解につながるため、Omni-MMSIでは不十分である。この課題に対処するため、我々は、ツールを用いたアイデンティティ分散ソーシャルキューを生成し、チェーン・オブ・シンクな社会的推論を行う参照誘導パイプラインであるOmni-MMSI-Rを提案する。このパイプラインを容易にするために、参加者レベルの参照ペアを構築し、既存のデータセットの上に推論アノテーションをキュレートする。 Omni-MMSI-R は、Omni-MMSI 上で先進的な LLM とそれに対応するものより優れていることを示す実験である。プロジェクトページ:https://sampson-lee.github.io/omni-mmsi-project-page

関連論文リスト

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models [86.19617358080016]
Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。 Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
論文参考訳（メタデータ） (2026-03-17T17:58:44Z)
OmniGAIA: Towards Native Omni-Modal AI Agents [103.79729735478924]
我々は、深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計されたベンチマークを導入する。我々は,Omni-modal foundation agentであるOmniAtlasを提案する。
論文参考訳（メタデータ） (2026-02-26T11:35:04Z)
SI-Bench: Benchmarking Social Intelligence of Large Language Models in Human-to-Human Conversations [8.453848538355508]
大規模言語モデル(LLM)における社会的知能の側面を評価するための新しいベンチマークであるSI-Benchを紹介する。 SI-Benchは幅広い社会科学理論に基づいており、ソーシャルネットワーキングアプリケーションから収集された2,221の真のマルチターン対話を含んでいる。実験では、複雑な社会的状況下でのプロセス推論において、SOTAモデルが人間の専門家を上回る結果となったが、それでも回答の品質は人間に劣っている。
論文参考訳（メタデータ） (2025-10-27T10:21:46Z)
SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。 SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文参考訳（メタデータ） (2025-06-05T05:51:35Z)
SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
EgoSocialArena: Benchmarking the Social Intelligence of Large Language Models from a First-person Perspective [22.30892836263764]
社会知能は認知知能、状況知能、行動知能の3つの柱の上に構築されている。 EgoSocialArenaは、個人の視点から、大規模言語モデルの社会的インテリジェンスを体系的に評価することを目的としている。
論文参考訳（メタデータ） (2024-10-08T16:55:51Z)
Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs [24.613282867543244]
大規模言語モデル(LLM)はより豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。最近の研究は、これらのシミュレーションについて、人間とAIエージェントが現実世界で関与する不完全で情報非対称な相互作用と、基本的には異なっています。
論文参考訳（メタデータ） (2024-03-08T03:49:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。