論文の概要: Multi-Modal Video Dialog State Tracking in the Wild
- arxiv url: http://arxiv.org/abs/2407.02218v1
- Date: Tue, 2 Jul 2024 12:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:35:30.777634
- Title: Multi-Modal Video Dialog State Tracking in the Wild
- Title(参考訳): 野生におけるマルチモーダルビデオ対話状態追跡
- Authors: Adnen Abdessaied, Lei Shi, Andreas Bulling,
- Abstract要約: MST-MIXERは、汎用的なマルチモーダル状態追跡スキーム上で動作する新しいビデオダイアログモデルである。
新たなマルチモーダルグラフ構造学習法を用いて,各入力モードの選択した構成成分の不足する基盤構造を予測する。
5つの挑戦的なベンチマークで、最先端の新たな結果を達成する。
- 参考スコア(独自算出の注目度): 10.453212911612866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present MST-MIXER - a novel video dialog model operating over a generic multi-modal state tracking scheme. Current models that claim to perform multi-modal state tracking fall short of two major aspects: (1) They either track only one modality (mostly the visual input) or (2) they target synthetic datasets that do not reflect the complexity of real-world in the wild scenarios. Our model addresses these two limitations in an attempt to close this crucial research gap. Specifically, MST-MIXER first tracks the most important constituents of each input modality. Then, it predicts the missing underlying structure of the selected constituents of each modality by learning local latent graphs using a novel multi-modal graph structure learning method. Subsequently, the learned local graphs and features are parsed together to form a global graph operating on the mix of all modalities which further refines its structure and node embeddings. Finally, the fine-grained graph node features are used to enhance the hidden states of the backbone Vision-Language Model (VLM). MST-MIXER achieves new state-of-the-art results on five challenging benchmarks.
- Abstract(参考訳): MST-MIXER - 汎用マルチモーダル状態追跡方式上で動作する新しいビデオダイアログモデルを提案する。
マルチモーダル状態追跡を行うと主張する現在のモデルは、(1) 1つのモーダル(主に視覚入力)だけを追跡するか、(2)野生のシナリオにおける現実世界の複雑さを反映しない合成データセットをターゲットにしている。
私たちのモデルは、この重要な研究ギャップを埋めるために、これらの2つの制限に対処します。
具体的には、MST-MIXERはまず各入力モードの最も重要な成分を追跡する。
そして,新しいマルチモーダルグラフ構造学習法を用いて局所潜在グラフを学習することにより,各モーダル選択成分の欠落基盤構造を予測する。
その後、学習した局所グラフと特徴を解析して、すべてのモダリティを混合したグローバルグラフを形成し、その構造とノードの埋め込みをさらに洗練する。
最後に、詳細なグラフノード機能を使用して、バックボーンビジョンランゲージモデル(VLM)の隠れ状態を強化する。
MST-MIXERは5つの挑戦的なベンチマークで新しい最先端の結果を達成する。
関連論文リスト
- Multimodal Graph Benchmark [36.75510196380185]
マルチモーダルグラフベンチマーク(Multimodal Graph Benchmark、MM-GRAPH)は、テキスト情報と視覚情報の両方を組み込んだ総合的なマルチモーダルグラフベンチマークである。
MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。
MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-24T05:14:09Z) - MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T13:22:55Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - From random-walks to graph-sprints: a low-latency node embedding
framework on continuous-time dynamic graphs [4.372841335228306]
本稿では,レイテンシが低く,最先端の高レイテンシモデルと競合する連続時間動的グラフ(CTDG)のフレームワークを提案する。
本フレームワークでは,マルチホップ情報を要約したタイムアウェアノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。
グラフプリント機能と機械学習を組み合わせることで,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2023-07-17T12:25:52Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Analyzing Unaligned Multimodal Sequence via Graph Convolution and Graph
Pooling Fusion [28.077474663199062]
本稿では,マルチモーダルシーケンシャルデータモデリングにおけるグラフニューラルネットワーク(GNN)の有効性を検討するために,マルチモーダルグラフと呼ばれる新しいモデルを提案する。
グラフベースのモデルは、2つのベンチマークデータセット上で最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2020-11-27T06:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。