論文の概要: 3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for
Embodied Turn-Taking Prediction
- arxiv url: http://arxiv.org/abs/2310.14859v3
- Date: Thu, 21 Dec 2023 18:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:10:27.492511
- Title: 3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for
Embodied Turn-Taking Prediction
- Title(参考訳): 3m-transformer:エンボディドターンテイク予測のための多段マルチストリームマルチモーダルトランス
- Authors: Mehdi Fatan, Emanuele Mincato, Dimitra Pintzou, Mariella Dimiccoli
- Abstract要約: 本稿では,マルチモーダルトランスフォーマーを用いたマルチパースペクティブデータのターンテイク予測手法を提案する。
最近導入されたEgoComデータセットの実験結果は、平均して14.01%の大幅なパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 4.342241136871849
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting turn-taking in multiparty conversations has many practical
applications in human-computer/robot interaction. However, the complexity of
human communication makes it a challenging task. Recent advances have shown
that synchronous multi-perspective egocentric data can significantly improve
turn-taking prediction compared to asynchronous, single-perspective
transcriptions. Building on this research, we propose a new multimodal
transformer-based architecture for predicting turn-taking in embodied,
synchronized multi-perspective data. Our experimental results on the recently
introduced EgoCom dataset show a substantial performance improvement of up to
14.01% on average compared to existing baselines and alternative
transformer-based approaches. The source code, and the pre-trained models of
our 3M-Transformer will be available upon acceptance.
- Abstract(参考訳): マルチパーティ会話におけるターンテイクの予測は、人間とコンピュータ/ロボットのインタラクションに多くの実践的応用がある。
しかし、人間のコミュニケーションの複雑さは難しい課題となっている。
近年の進歩により、同期型マルチパースペクティブなエゴセントリックデータは、非同期のシングルパースペクティブな書き起こしと比較して、ターンテイク予測を著しく改善できることが示されている。
本研究では,エンボディ化・同期化マルチパースペクティブデータのターンテイクを予測するための,新しいマルチモーダルトランスフォーマティブアーキテクチャを提案する。
最近導入されたEgoComデータセットの実験結果は、既存のベースラインや代替トランスフォーマーベースのアプローチと比較して、平均で14.01%の大幅なパフォーマンス向上を示している。
3M-Transformerのソースコードと事前訓練済みのモデルは、受け入れ次第利用可能になります。
関連論文リスト
- Towards Multi-modal Transformers in Federated Learning [10.823839967671454]
本稿では,視覚言語領域におけるMFL(Transfer Multi-modal Federated Learning)のシナリオについて検討する。
我々は,クライアント間の非モダリティと相互モダリティのギャップに対処することによって,FedCola(Federated modality complementary and collaboration)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-18T19:04:27Z) - ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions [4.554319452683839]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。