論文の概要: Multimodal Quantitative Measures for Multiparty Behaviour Evaluation
- arxiv url: http://arxiv.org/abs/2508.10916v1
- Date: Fri, 01 Aug 2025 13:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.453547
- Title: Multimodal Quantitative Measures for Multiparty Behaviour Evaluation
- Title(参考訳): マルチモーダルな行動評価の定量化
- Authors: Ojas Shirekar, Wim Pouw, Chenxu Hao, Vrushank Phadnis, Thabo Beeler, Chirag Raman,
- Abstract要約: 骨格運動データにおける多人数社会的行動の客観的評価のための統合的介入駆動型フレームワークを提案する。
3つの理論駆動摂動による計量感度の検証を行った。
混合効果分析により、予測可能な、共同非依存的なシフトが明らかになる。
- 参考スコア(独自算出の注目度): 6.709251546882382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital humans are emerging as autonomous agents in multiparty interactions, yet existing evaluation metrics largely ignore contextual coordination dynamics. We introduce a unified, intervention-driven framework for objective assessment of multiparty social behaviour in skeletal motion data, spanning three complementary dimensions: (1) synchrony via Cross-Recurrence Quantification Analysis, (2) temporal alignment via Multiscale Empirical Mode Decompositionbased Beat Consistency, and (3) structural similarity via Soft Dynamic Time Warping. We validate metric sensitivity through three theory-driven perturbations -- gesture kinematic dampening, uniform speech-gesture delays, and prosodic pitch-variance reduction-applied to $\approx 145$ 30-second thin slices of group interactions from the DnD dataset. Mixed-effects analyses reveal predictable, joint-independent shifts: dampening increases CRQA determinism and reduces beat consistency, delays weaken cross-participant coupling, and pitch flattening elevates F0 Soft-DTW costs. A complementary perception study ($N=27$) compares judgments of full-video and skeleton-only renderings to quantify representation effects. Our three measures deliver orthogonal insights into spatial structure, timing alignment, and behavioural variability. Thereby forming a robust toolkit for evaluating and refining socially intelligent agents. Code available on \href{https://github.com/tapri-lab/gig-interveners}{GitHub}.
- Abstract(参考訳): デジタル人間は、多人数インタラクションにおいて自律的なエージェントとして出現しているが、既存の評価指標は、コンテキスト調整のダイナミクスをほとんど無視している。
骨格運動データにおける多人数的社会的行動の客観的評価のための統合的介入駆動型枠組みを導入し,(1)クロスレカレンス定量分析による同期,(2)マルチスケール経験的モードによる時間的アライメント,(3)ソフト・ダイナミック・タイム・ウォーピングによる構造的類似性について検討した。
DnDデータセットからの群間相互作用の30秒スライスを$\approx 145$で適用し,3つの理論駆動摂動による計量感度の検証を行った。
混合効果分析は、予測可能な、共同非依存的なシフトを明らかにし、CRQA決定性を低下させ、ビート一貫性を低下させ、参加者間の結合を弱めるとともに、ピッチ平坦化はF0 Soft-DTWコストを上昇させる。
補完的な知覚研究(N=27$)は、フルビデオとスケルトンのみのレンダリングの判断を比較して、表現効果を定量化する。
我々の3つの尺度は、空間構造、タイミングアライメント、行動変数に関する直交的な洞察を提供する。
これにより、社会的に知的なエージェントの評価と精錬のための堅牢なツールキットを形成する。
コードは \href{https://github.com/tapri-lab/gig-interveners}{GitHub} で公開されている。
関連論文リスト
- Robustifying 3D Perception via Least-Squares Graphs for Multi-Agent Object Tracking [43.11267507022928]
本稿では,3次元LiDARシーンにおける対向雑音に対する新たな緩和フレームワークを提案する。
我々は最小二乗グラフツールを用いて各検出の遠心点の位置誤差を低減する。
実世界のV2V4Realデータセットに関する広範な評価研究は、提案手法がシングルエージェントとマルチエージェントの両方のトラッキングフレームワークよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T08:41:08Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - AsyReC: A Multimodal Graph-based Framework for Spatio-Temporal Asymmetric Dyadic Relationship Classification [8.516886985159928]
ダイアドの社会的関係は、空間的経験と時間的経験の共有によって形成される。
これらの関係をモデル化するための現在の計算手法は3つの大きな課題に直面している。
非対称なダイアド関係分類のための多モードグラフベースのフレームワークAsyReCを提案する。
論文 参考訳(メタデータ) (2025-04-07T12:52:23Z) - Neural Interaction Energy for Multi-Agent Trajectory Prediction [55.098754835213995]
ニューラル・インタラクション・エナジー(MATE)によるマルチエージェント軌道予測(Multi-Agent Trajectory Prediction)というフレームワークを導入する。
MATEは神経相互作用エネルギーを用いてエージェントの対話運動を評価する。
時間的安定性を高めるために,エージェント間相互作用制約とエージェント内動作制約という2つの制約を導入する。
論文 参考訳(メタデータ) (2024-04-25T12:47:47Z) - Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。
暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。
また, 関節間の関係を学習するために, 隣接変調を用いた。
論文 参考訳(メタデータ) (2023-08-29T14:00:55Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Averaging Spatio-temporal Signals using Optimal Transport and Soft
Alignments [110.79706180350507]
Fr'teche は双対性を意味し, 時間的バレシェセンタを定義するために提案した損失が有効であることを示す。
手書き文字と脳画像データによる実験は、我々の理論的発見を裏付けるものである。
論文 参考訳(メタデータ) (2022-03-11T09:46:22Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。