論文の概要: OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog
- arxiv url: http://arxiv.org/abs/2402.13146v1
- Date: Tue, 20 Feb 2024 17:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:32:25.791250
- Title: OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog
- Title(参考訳): olvit: ビデオグラウンデッドダイアログのための注意に基づく埋め込みによるマルチモーダル状態追跡
- Authors: Adnen Abdessaied, Manuel von Hochmeister, Andreas Bulling
- Abstract要約: OLViTは、マルチモーダルアテンションベースのダイアログ状態トラッカー上で動作するビデオダイアログの新しいモデルである。
オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を保持する。
- 参考スコア(独自算出の注目度): 10.290057801577662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the Object Language Video Transformer (OLViT) - a novel model for
video dialog operating over a multi-modal attention-based dialog state tracker.
Existing video dialog models struggle with questions requiring both spatial and
temporal localization within videos, long-term temporal reasoning, and accurate
object tracking across multiple dialog turns. OLViT addresses these challenges
by maintaining a global dialog state based on the output of an Object State
Tracker (OST) and a Language State Tracker (LST): while the OST attends to the
most important objects within the video, the LST keeps track of the most
important linguistic co-references to previous dialog turns. In stark contrast
to previous works, our approach is generic by nature and is therefore capable
of learning continuous multi-modal dialog state representations of the most
relevant objects and rounds. As a result, they can be seamlessly integrated
into Large Language Models (LLMs) and offer high flexibility in dealing with
different datasets and tasks. Evaluations on the challenging DVD (response
classification) and SIMMC 2.1 (response generation) datasets show that OLViT
achieves new state-of-the-art performance across both datasets.
- Abstract(参考訳): 対象言語ビデオ変換器(OLViT)について述べる。マルチモーダルな注意に基づく対話状態トラッカー上で動作するビデオダイアログの新しいモデルである。
既存のビデオダイアログモデルでは、ビデオ内の空間的および時間的ローカライゼーション、長期的時間的推論、複数のダイアログを横断する正確なオブジェクト追跡が必要である。
OLViTは、オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を維持することでこれらの課題に対処する。
従来の研究とは対照的に,本手法は自然に汎用的であり,最も関連性の高いオブジェクトやラウンドの連続多モードダイアログ状態表現を学習することができる。
結果として、それらは大きな言語モデル(llm)にシームレスに統合され、異なるデータセットやタスクを扱うための高い柔軟性を提供する。
挑戦的なDVD(レスポンス分類)とSIMMC 2.1(レスポンス生成)データセットの評価は、OLViTが両方のデータセットで新しい最先端のパフォーマンスを達成することを示している。
関連論文リスト
- Grounding is All You Need? Dual Temporal Grounding for Video Dialog [48.3411605700214]
本稿では,Dual Temporal Grounding-enhanced Video Dialog Model (DTGVD)を紹介する。
ダイアログ固有の時間領域を予測することによって、二重時間関係を強調する。
また、ビデオコンテンツのフィルタリングや、ビデオとダイアログの両方のコンテキストでの応答のグラウンド化も行う。
論文 参考訳(メタデータ) (2024-10-08T07:48:34Z) - Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations [3.784841749866846]
MDST(Multi-round Dialogue State Tracking Model)を導入する。
MDSTは、内的対話状態表現を視覚言語表現の2-タプルとして定義し、各ラウンドの対話履歴をキャプチャする。
VisDial v1.0データセットの実験結果は、MDSTが生成環境において新しい最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-13T08:36:15Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。