論文の概要: SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
- arxiv url: http://arxiv.org/abs/2603.16859v1
- Date: Tue, 17 Mar 2026 17:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.470637
- Title: SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
- Title(参考訳): SocialOmni:Omniモデルにおけるオーディオと視覚の社会的相互作用のベンチマーク
- Authors: Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji,
- Abstract要約: Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。
Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。
本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
- 参考スコア(独自算出の注目度): 86.19617358080016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.
- Abstract(参考訳): Omni-Modal Large Language Model (OLM) は、音声、視覚、テキストをネイティブに統合することにより、人間と機械の相互作用を再定義する。
しかし、既存のOLMベンチマークは、静的な精度中心のタスクに固定されており、自然な対話における動的なキューをナビゲートする基本的な能力である、社会的相互作用を評価する上で重要なギャップを残している。
この目的のために,3次元にわたる対話性の評価を運用する総合的なベンチマークであるSocialOmniを提案する。
一 話者の分離及び識別(話し手)
二 中断タイミング制御(介在時)、及び
三 自然割り込み発生(割り込みの言い方)
SocialOmniは2,000の知覚サンプルと、厳密な時間的制約と文脈的制約を備えた209のインタラクション生成インスタンスの品質管理された診断セットを備えている。
我々は、モデル間での社会的相互作用能力の大きな差異を明らかにする12の主要なOLMをベンチマークした。
さらに,モデルの知覚的精度と文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなり,理解中心の指標だけでは会話の社会的能力を特徴づけるには不十分であることが示唆された。
より奨励的に、SocialOmniのこれらの診断は、将来のOLMにおける知覚と相互作用の分断をブリッジするために実行可能な信号をもたらす。
関連論文リスト
- M3-BENCH: Process-Aware Evaluation of LLM Agents Social Behaviors in Mixed-Motive Games [4.88323005571385]
M3-Benchは、M3-Benchのマルチステージベンチマークである。
我々は、多次元の証拠を解釈可能な社会行動像に集約するために、ビッグファイブパーソナリティモデルと社会交換理論を統合する。
論文 参考訳(メタデータ) (2026-01-13T11:38:51Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Reading Between the Lines: Combining Pause Dynamics and Semantic Coherence for Automated Assessment of Thought Disorder [8.239710313549466]
本研究では,ポーズ機能と3つのデータセット間のセマンティックコヒーレンスメトリクスを統合する。
重要な発見は、停止機能だけで形式的思考障害(FTD)の重症度を確実に予測できることである。
これらの結果から,時間的分析と意味的分析を組み合わせたフレームワークが,非編成音声の評価を洗練するためのロードマップを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-17T22:00:16Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。