論文の概要: SocialGen: Modeling Multi-Human Social Interaction with Language Models
- arxiv url: http://arxiv.org/abs/2503.22906v1
- Date: Fri, 28 Mar 2025 22:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:14.702351
- Title: SocialGen: Modeling Multi-Human Social Interaction with Language Models
- Title(参考訳): SocialGen: 言語モデルを用いたマルチヒューマンソーシャルインタラクションのモデリング
- Authors: Heng Yu, Juze Zhang, Changan Chen, Tiange Xiang, Yusu Fang, Juan Carlos Niebles, Ehsan Adeli,
- Abstract要約: 多様な個人間での対話行動のモデル化が可能な,最初の統合運動言語モデルであるSocialGenを紹介する。
対人インタラクションに限られる従来の方法とは異なり、任意の数の個人の動きのトークン化を支援する新しい社会運動表現を提案する。
このアライメントにより、モデルは豊かで訓練済みの言語知識を活用して、人間の社会的行動をよりよく理解し、推論することができる。
- 参考スコア(独自算出の注目度): 30.068879125411726
- License:
- Abstract: Human interactions in everyday life are inherently social, involving engagements with diverse individuals across various contexts. Modeling these social interactions is fundamental to a wide range of real-world applications. In this paper, we introduce SocialGen, the first unified motion-language model capable of modeling interaction behaviors among varying numbers of individuals, to address this crucial yet challenging problem. Unlike prior methods that are limited to two-person interactions, we propose a novel social motion representation that supports tokenizing the motions of an arbitrary number of individuals and aligning them with the language space. This alignment enables the model to leverage rich, pretrained linguistic knowledge to better understand and reason about human social behaviors. To tackle the challenges of data scarcity, we curate a comprehensive multi-human interaction dataset, SocialX, enriched with textual annotations. Leveraging this dataset, we establish the first comprehensive benchmark for multi-human interaction tasks. Our method achieves state-of-the-art performance across motion-language tasks, setting a new standard for multi-human interaction modeling.
- Abstract(参考訳): 日常生活における人間の相互作用は本質的に社会的であり、様々な文脈における多様な個人との関わりを伴う。
これらの社会的相互作用をモデル化することは、様々な現実世界のアプリケーションに基礎を置いている。
本稿では,この決定的かつ困難な問題に対処するために,多様な個人間での対話行動のモデル化が可能な,最初の統合された動き言語モデルSocialGenを紹介する。
対人インタラクションに限られる従来の方法とは異なり、任意の数の個人の動きをトークン化し、それらを言語空間と整合させる新しい社会運動表現を提案する。
このアライメントにより、モデルは豊かで訓練済みの言語知識を活用して、人間の社会的行動をよりよく理解し、推論することができる。
データ不足の課題に対処するため、テキストアノテーションに富んだ総合的なマルチヒューマンインタラクションデータセットSocialXをキュレートする。
このデータセットを活用することで、マルチヒューマンインタラクションタスクの包括的なベンチマークを初めて確立する。
本手法は,動作言語タスク間での最先端性能を実現し,マルチヒューマンインタラクションモデリングのための新しい標準を設定する。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups [8.415759777703125]
JRDB-Socialは、屋内・屋外の多様な社会的文脈における人間の理解のギャップを埋める。
このデータセットは、ロボットアプリケーションのための人間の社会的ダイナミクスの把握を強化することを目的としている。
論文 参考訳(メタデータ) (2024-04-06T00:33:39Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations [20.848802791989307]
本稿では,複数の人物間の微粒化動態をモデル化するための3つの新しい課題を紹介する。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
実験では, よりきめ細かい社会相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion
Prediction [10.496276090281825]
本稿では,ソーシャル・アウェア・モーション・トランスフォーマー(SoMoFormer)を提案する。
SoMoFormerは、変位軌道空間のサブシーケンスから運動特徴を抽出し、各個人に対する局所的およびグローバルなポーズダイナミクスを学習する。
さらに,SoMoFormerに新たなソーシャル・アウェア・アテンション・アテンション・メカニズムを考案し,動的表現をさらに最適化し,相互依存を同時に捉える。
論文 参考訳(メタデータ) (2022-08-19T08:57:34Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。