Fugu-MT 論文翻訳(概要): Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions

論文の概要: Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions

arxiv url: http://arxiv.org/abs/2109.09487v1
Date: Mon, 20 Sep 2021 12:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-21 16:57:08.726130
Title: Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions
Title（参考訳）: dyadformer:dyadic相互作用の長距離モデリングのためのマルチモーダルトランスフォーマー
Authors: David Curto, Albert Clap\'es, Javier Selva, Sorina Smeureanu, Julio C. S. Jacques Junior, David Gallardo-Pujol, Georgina Guilera, David Leiva, Thomas B. Moeslund, Sergio Escalera and Cristina Palmero
Abstract要約: そこで我々はDyadformerを提案する。Dyadformerは、動的相互作用における個人的および対人的特徴をモデル化する、新しいマルチモーダルマルチオブジェクトトランスフォーマーアーキテクチャである。提案するクロスオブジェクト層は,対象者間のインタラクションを注意的操作により明示的にモデル化することを可能にする。この概念実証アプローチは、双方の相互作用の複数モーダリティと結合モデリングが、より長い時間にわたって、個々の属性を予測するのにどのように役立つかを示す。
参考スコア（独自算出の注目度）: 33.67477398036821
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Personality computing has become an emerging topic in computer vision, due to the wide range of applications it can be used for. However, most works on the topic have focused on analyzing the individual, even when applied to interaction scenarios, and for short periods of time. To address these limitations, we present the Dyadformer, a novel multi-modal multi-subject Transformer architecture to model individual and interpersonal features in dyadic interactions using variable time windows, thus allowing the capture of long-term interdependencies. Our proposed cross-subject layer allows the network to explicitly model interactions among subjects through attentional operations. This proof-of-concept approach shows how multi-modality and joint modeling of both interactants for longer periods of time helps to predict individual attributes. With Dyadformer, we improve state-of-the-art self-reported personality inference results on individual subjects on the UDIVA v0.5 dataset.
Abstract（参考訳）: パーソナリティコンピューティングは、コンピュータビジョンにおいて、その用途が幅広いため、新たな話題となっている。しかしながら、このトピックに関するほとんどの研究は、相互作用シナリオに適用された場合でも、短時間で個人を分析することに重点を置いている。これらの制約に対処するために,可変時間窓を用いたディヤド相互作用における個人的・対人的特徴をモデル化するマルチモーダルマルチサブジェクトトランスフォーマアーキテクチャであるdyadformerを提案する。提案するクロスサブジェクト層により,ネットワークは注意操作を通じて対象間のインタラクションを明示的にモデル化できる。この概念実証アプローチは、長期にわたって相互作用する両者のマルチモダリティとジョイントモデリングが個々の属性の予測にどのように役立つかを示している。 Dyadformerでは, UDIVA v0.5データセットを用いて, 個人に対する自己申告人格推定結果を改善する。

関連論文リスト

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
Multi-Faceted Multimodal Monosemanticity [42.64636740703632]
深層マルチモーダルモデルから抽出した解釈可能なモノセマンティックな特徴を解析するために,データ駆動型アプローチを採用する。具体的には,大規模画像とテキストのペアで学習した視覚言語表現モデルであるCLIPについて検討する。本稿では,CLIPから学んだ特徴を抽出・解析する多モード解釈可能性ツールと尺度について述べる。
論文参考訳（メタデータ） (2025-02-16T14:51:07Z)
Personality Analysis from Online Short Video Platforms with Multi-domain Adaptation [16.555668668581237]
オンラインショートビデオのパーソナリティ分析は、パーソナライズされたレコメンデーションシステム、感情分析、人間とコンピュータのインタラクションに応用されているため、注目を集めている。ビッグファイブ・パーソナリティ・フレームワークに基づくアンケートのような従来の評価手法は、自己報告バイアスによって制限されており、大規模な分析やリアルタイム分析では実用的ではない。マルチモーダル・パーソナリティ分析フレームワークを提案し,複数のモーダルから特徴を同期・統合することで課題に対処する。
論文参考訳（メタデータ） (2024-10-26T03:29:32Z)
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。マルチグラニュラリティコントラストクロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文参考訳（メタデータ） (2024-10-12T06:21:58Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
UNIMO-3: Multi-granularity Interaction for Vision-Language Representation Learning [35.88753097105914]
マルチモーダルな層間相互作用と層間相互作用を同時に学習する能力を持つ UNIMO-3 モデルを提案する。我々のモデルは,様々な下流タスクにおける最先端性能を実現し,効果的な層間学習がマルチモーダル表現の能力を向上することを証明することができる。
論文参考訳（メタデータ） (2023-05-23T05:11:34Z)
A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文参考訳（メタデータ） (2022-07-10T23:31:27Z)
MultiViz: An Analysis Benchmark for Visualizing and Understanding Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。 MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文参考訳（メタデータ） (2022-06-30T18:42:06Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。