論文の概要: MONAH: Multi-Modal Narratives for Humans to analyze conversations
- arxiv url: http://arxiv.org/abs/2101.07339v2
- Date: Wed, 20 Jan 2021 02:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 07:15:21.462121
- Title: MONAH: Multi-Modal Narratives for Humans to analyze conversations
- Title(参考訳): monah: 会話を分析するためのマルチモーダルな物語
- Authors: Joshua Y. Kim, Greyson Y. Kim, Chunfeng Liu, Rafael A. Calvo, Silas
C.R. Taylor, Kalina Yacef
- Abstract要約: 本稿では,マルチモーダルデータストリームを用いて,ビデオ録画会話の口頭転写を自動拡張するシステムを提案する。
このシステムは、事前処理ルールのセットを使用して、マルチモーダルアノテーションを頂点のトランスクリプトに織り込み、解釈性を促進する。
- 参考スコア(独自算出の注目度): 9.178828168133206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In conversational analyses, humans manually weave multimodal information into
the transcripts, which is significantly time-consuming. We introduce a system
that automatically expands the verbatim transcripts of video-recorded
conversations using multimodal data streams. This system uses a set of
preprocessing rules to weave multimodal annotations into the verbatim
transcripts and promote interpretability. Our feature engineering contributions
are two-fold: firstly, we identify the range of multimodal features relevant to
detect rapport-building; secondly, we expand the range of multimodal
annotations and show that the expansion leads to statistically significant
improvements in detecting rapport-building.
- Abstract(参考訳): 会話分析では、人間が手動でマルチモーダル情報をテキストに織り込む。
本稿では,マルチモーダルデータストリームを用いて,ビデオ録画会話の口頭転写を自動拡張するシステムを提案する。
本システムは,複数モーダルアノテーションを動詞の転写文に織り込み,解釈可能性を高めるために,事前処理ルールのセットを使用する。
ひとつは、rapport-buildingの検出に関連するマルチモーダルな機能の範囲を特定し、もうひとつは、マルチモーダルアノテーションの範囲を拡大し、拡張によってrapport-buildingの検出が統計的に著しく改善されたことを示しています。
関連論文リスト
- Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - MM-Narrator: Narrating Long-form Videos with Multimodal In-Context
Learning [120.95150400119705]
GPT-4を利用した音声記述生成のためのマルチモーダルインコンテキスト学習システムMM-Narratorを提案する。
MM-Narratorは、時間を超えても、何時間も経過したビデオの正確な音声記述を自動回帰的に生成することに長けている。
逐次テキスト生成のための最初のセグメントベース評価器を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:27:00Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MM-AU:Towards Multimodal Understanding of Advertisement Videos [38.117243603403175]
複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
論文 参考訳(メタデータ) (2023-08-27T09:11:46Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。