論文の概要: A Video-grounded Dialogue Dataset and Metric for Event-driven Activities
- arxiv url: http://arxiv.org/abs/2501.18324v1
- Date: Thu, 30 Jan 2025 13:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:30.577708
- Title: A Video-grounded Dialogue Dataset and Metric for Event-driven Activities
- Title(参考訳): イベント駆動活動のためのビデオ地上対話データセットとメトリクス
- Authors: Wiradee Imrattanatrai, Masaki Asada, Kimihiro Hasegawa, Zhi-Qi Cheng, Ken Fukuda, Teruko Mitamura,
- Abstract要約: 本稿では,イベント駆動活動のビデオ地上対話のためのデータセットであるVDActについて述べる。
VDActには、さまざまなイベント駆動アクティビティを記述する、より長くより複雑なビデオシーケンスが含まれている。
データセットは3000の対話と30,000以上の質問と回答のペアで構成され、多様なアクティビティシナリオを持つ1,000のビデオから導かれる。
- 参考スコア(独自算出の注目度): 10.468747345147106
- License:
- Abstract: This paper presents VDAct, a dataset for a Video-grounded Dialogue on Event-driven Activities, alongside VDEval, a session-based context evaluation metric specially designed for the task. Unlike existing datasets, VDAct includes longer and more complex video sequences that depict a variety of event-driven activities that require advanced contextual understanding for accurate response generation. The dataset comprises 3,000 dialogues with over 30,000 question-and-answer pairs, derived from 1,000 videos with diverse activity scenarios. VDAct displays a notably challenging characteristic due to its broad spectrum of activity scenarios and wide range of question types. Empirical studies on state-of-the-art vision foundation models highlight their limitations in addressing certain question types on our dataset. Furthermore, VDEval, which integrates dialogue session history and video content summaries extracted from our supplementary Knowledge Graphs to evaluate individual responses, demonstrates a significantly higher correlation with human assessments on the VDAct dataset than existing evaluation metrics that rely solely on the context of single dialogue turns.
- Abstract(参考訳): 本稿では,そのタスク用に特別に設計されたセッションベースの文脈評価指標であるVDEvalとともに,イベント駆動活動のビデオ地上対話のためのデータセットであるVDActを提案する。
既存のデータセットとは異なり、VDActには、より長く、より複雑なビデオシーケンスが含まれており、正確な応答生成のために高度なコンテキスト理解を必要とする、さまざまなイベント駆動アクティビティが記述されている。
データセットは3000の対話と30,000以上の質問と回答のペアで構成され、多様なアクティビティシナリオを持つ1,000のビデオから導かれる。
VDActは、その幅広い活動シナリオと幅広い質問タイプのために、顕著に困難な特徴を示している。
最先端のビジョン基盤モデルに関する実証的研究は、データセット上の特定の質問タイプに対処する際の制限を強調します。
さらに,我々の補足的知識グラフから抽出した対話セッション履歴と映像コンテンツ要約を統合したVDEvalは,単一の対話ターンのコンテキストに依存する既存の評価指標よりも,VDActデータセット上の人間評価との相関が著しく高いことを示す。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans [4.098892268127572]
物理シミュレーター(AI2-THOR)内の参加者間の会話を記録するためにVRヘッドセットを用いた新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
論文 参考訳(メタデータ) (2024-09-30T21:51:30Z) - A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。