論文の概要: Learning Triadic Belief Dynamics in Nonverbal Communication from Videos
- arxiv url: http://arxiv.org/abs/2104.02841v1
- Date: Wed, 7 Apr 2021 00:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:03:37.521902
- Title: Learning Triadic Belief Dynamics in Nonverbal Communication from Videos
- Title(参考訳): ビデオからの非言語コミュニケーションにおける三進信念のダイナミクスの学習
- Authors: Lifeng Fan, Shuwen Qiu, Zilong Zheng, Tao Gao, Song-Chun Zhu, Yixin
Zhu
- Abstract要約: 非言語コミュニケーションはエージェント間で豊富な社会情報を伝達することができる。
本論文では,エージェントの精神状態を表現,モデル化,学習,推論するために,異なる非言語的コミュニケーションキューを組み込んだ。
- 参考スコア(独自算出の注目度): 81.42305032083716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans possess a unique social cognition capability; nonverbal communication
can convey rich social information among agents. In contrast, such crucial
social characteristics are mostly missing in the existing scene understanding
literature. In this paper, we incorporate different nonverbal communication
cues (e.g., gaze, human poses, and gestures) to represent, model, learn, and
infer agents' mental states from pure visual inputs. Crucially, such a mental
representation takes the agent's belief into account so that it represents what
the true world state is and infers the beliefs in each agent's mental state,
which may differ from the true world states. By aggregating different beliefs
and true world states, our model essentially forms "five minds" during the
interactions between two agents. This "five minds" model differs from prior
works that infer beliefs in an infinite recursion; instead, agents' beliefs are
converged into a "common mind". Based on this representation, we further devise
a hierarchical energy-based model that jointly tracks and predicts all five
minds. From this new perspective, a social event is interpreted by a series of
nonverbal communication and belief dynamics, which transcends the classic
keyframe video summary. In the experiments, we demonstrate that using such a
social account provides a better video summary on videos with rich social
interactions compared with state-of-the-art keyframe video summary methods.
- Abstract(参考訳): 人間にはユニークな社会的認知能力があり、非言語コミュニケーションはエージェント間で豊富な社会的情報を伝達することができる。
対照的に、こうした重要な社会的特徴は、既存の状況理解文学にはほとんど欠落している。
本稿では,視覚入力からエージェントの心理状態を表現し,モデル化し,学習し,推測するために,非言語的コミュニケーションの手がかり(視線,人間のポーズ,ジェスチャーなど)を取り入れる。
重要なのは、そのような心的表現がエージェントの信念を考慮に入れ、それが真の世界状態が何であるかを表わし、それぞれのエージェントの精神状態における信念を推測する。
異なる信念と真の世界状態の集約によって、我々のモデルは本質的に2つのエージェント間の相互作用の間に「5つの心」を形成する。
この「5つの心」モデルは、無限の再帰の信念を推測する以前の作品と異なり、エージェントの信念は「共通の心」に収束する。
この表現に基づいて,5つの心を共同で追跡し,予測する階層的エネルギーベースモデルをさらに考案する。
この新たな視点から、社会イベントは、古典的なキーフレームのビデオ要約を超越した一連の非言語コミュニケーションと信念ダイナミクスによって解釈される。
実験では,このようなソーシャルアカウントを用いて,最先端のキーフレームビデオサマリー手法と比較して,リッチなソーシャルインタラクションを有するビデオに対するより良いビデオサマリを提供することを示す。
関連論文リスト
- Spontaneous Emergence of Agent Individuality through Social Interactions in LLM-Based Communities [0.0]
本稿では,Large Language Model (LLM) ベースのエージェントを用いて,ゼロからエージェントが出現することを検討する。
このマルチエージェントシミュレーションを解析することにより、社会的規範、協力、性格特性が自然に出現する方法について、貴重な新しい知見を報告する。
論文 参考訳(メタデータ) (2024-11-05T16:49:33Z) - MuMA-ToM: Multi-modal Multi-Agent Theory of Mind [10.079620078670589]
マルチモーダルなマルチエージェント理論である MuMA-ToM を導入する。
本研究では,現実的な家庭環境における人々のマルチモーダル行動について,ビデオとテキストで記述する。
そして、他人の目標、信念、信念について質問する。
論文 参考訳(メタデータ) (2024-08-22T17:41:45Z) - Learning mental states estimation through self-observation: a developmental synergy between intentions and beliefs representations in a deep-learning model of Theory of Mind [0.35154948148425685]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、信念、意図、精神状態などを他人に関連付ける能力である。
我々は,低レベル精神状態を予測する学習と,高レベル精神状態に寄与する学習との間に発達的な相乗効果を示す。
我々は,人間の社会的認知発達の理解に,我々の計算的アプローチが役立つことを示唆する。
論文 参考訳(メタデータ) (2024-07-25T13:15:25Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition [59.57095498284501]
我々は,textbfContextual textbfSocial textbfRelationships (textbfConSoR) を社会的認知の観点から認識する新しいアプローチを提案する。
画像ごとの社会的関係を考慮した社会認識記述言語プロンプトを構築した。
印象的なことに、ConSoRは従来の手法を上回り、Person-in-Social-Context(PISC)データセットでは12.2%、Person-in-Photo-Album(PIPA)ベンチマークでは9.8%向上している。
論文 参考訳(メタデータ) (2024-06-12T16:02:28Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Digital Life Project: Autonomous 3D Characters with Social Intelligence [86.2845109451914]
Digital Life Projectは、言語をユニバーサルメディアとして活用し、自律的な3Dキャラクタを構築するためのフレームワークである。
私たちのフレームワークは、SocioMindとMoMat-MoGenの2つの主要コンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-07T18:58:59Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - How social feedback processing in the brain shapes collective opinion
processes in the era of social media [0.0]
社会的フィードバックの処理に関する最近の神経科学的知見に基づいて,これらの問題に対処できる理論モデルを構築した。
少数派が結束的な集団として振る舞うと、強い多数派でさえ黙らざるを得ない。
社会的フィードバック理論の枠組みは、社会的および認知神経科学における発見の社会的レベルの含意を理解するために、社会学的理論の必要性を強調している。
論文 参考訳(メタデータ) (2020-03-18T11:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。