論文の概要: MTP: A Dataset for Multi-Modal Turning Points in Casual Conversations
- arxiv url: http://arxiv.org/abs/2409.14801v1
- Date: Mon, 23 Sep 2024 08:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:01:15.766185
- Title: MTP: A Dataset for Multi-Modal Turning Points in Casual Conversations
- Title(参考訳): MTP:カジュアル会話におけるマルチモーダル・ターンポイントのためのデータセット
- Authors: Gia-Bao Dinh Ho, Chang Wei Tan, Zahra Zamanzadeh Darban, Mahsa Salehi, Gholamreza Haffari, Wray Buntine,
- Abstract要約: 感情的なアウトバーストや会話中の意思決定の変化といった重要な瞬間は、人間の行動とその結果の変化を理解するために不可欠である。
我々の研究は、これらの瞬間をターンポイント(TP)として焦点をあてた、新しい問題設定を導入する。
我々は,これらの転換点における感情,行動,視点,決定の光度の高い変化について,正確なタイムスタンプ,説明,および視覚的テキスト的証拠を提供する。
また,現状の視覚言語モデルを用いて,映像や大規模言語モデルから物語を構築し,回転点の分類と検出を行うフレームワークTP Mavenを提案する。
- 参考スコア(独自算出の注目度): 30.9157728847139
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Detecting critical moments, such as emotional outbursts or changes in decisions during conversations, is crucial for understanding shifts in human behavior and their consequences. Our work introduces a novel problem setting focusing on these moments as turning points (TPs), accompanied by a meticulously curated, high-consensus, human-annotated multi-modal dataset. We provide precise timestamps, descriptions, and visual-textual evidence high-lighting changes in emotions, behaviors, perspectives, and decisions at these turning points. We also propose a framework, TPMaven, utilizing state-of-the-art vision-language models to construct a narrative from the videos and large language models to classify and detect turning points in our multi-modal dataset. Evaluation results show that TPMaven achieves an F1-score of 0.88 in classification and 0.61 in detection, with additional explanations aligning with human expectations.
- Abstract(参考訳): 感情的なアウトバーストや会話中の意思決定の変化などの重要な瞬間を検出することは、人間の行動と結果の変化を理解するために重要である。
我々の研究は、これらの瞬間をターンポイント(TP)として焦点を合わせ、細心の注意を払って高度に調整された、人間に注釈を付けたマルチモーダルデータセットを伴って、新しい問題を提起する。
我々は,これらの転換点における感情,行動,視点,決定の光度の高い変化について,正確なタイムスタンプ,説明,および視覚的テキスト的証拠を提供する。
我々はまた、最先端のビジョン言語モデルを利用して、ビデオや大規模言語モデルから物語を構築し、マルチモーダルデータセットのターンポイントを分類し、検出するフレームワークTP Mavenを提案する。
評価の結果,TP Mavenは分類0.88のF1スコア,検出0.61のF1スコアを達成した。
関連論文リスト
- Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - HIINT: Historical, Intra- and Inter- personal Dynamics Modeling with
Cross-person Memory Transformer [38.92436852096451]
クロスパーソンメモリトランスフォーマー(CPM-T)フレームワークは、感情力学を明示的にモデル化することができる。
CPM-Tフレームワークはメモリモジュールを維持し、会話ウィンドウ内のコンテキストを保存および更新する。
共同作業,ラップポート,人的信念予測の3つの公開データセットに対して,提案手法の有効性と一般化性を評価する。
論文 参考訳(メタデータ) (2023-05-21T06:43:35Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。