論文の概要: Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over Videos
- arxiv url: http://arxiv.org/abs/2506.09953v1
- Date: Wed, 11 Jun 2025 17:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.165486
- Title: Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over Videos
- Title(参考訳): 知識対話型ビデオ(OKCV)データセット-動画の対話
- Authors: Benjamin Reichman, Constantin Patsch, Jack Truxal, Atishay Jain, Larry Heck,
- Abstract要約: 我々は,2,017ドルのビデオと5,986ドルの人称注釈付き対話,40,954ドルのインターリーブ付き対話によるデータセットを紹介する。
会話モデルは、時間とともに関連する視覚的詳細を認識し、必要な情報が必ずしも視覚情報に存在しないような質問に答えなければならない。
- 参考スコア(独自算出の注目度): 3.0758169771529693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In outside knowledge visual question answering (OK-VQA), the model must identify relevant visual information within an image and incorporate external knowledge to accurately respond to a question. Extending this task to a visually grounded dialogue setting based on videos, a conversational model must both recognize pertinent visual details over time and answer questions where the required information is not necessarily present in the visual information. Moreover, the context of the overall conversation must be considered for the subsequent dialogue. To explore this task, we introduce a dataset comprised of $2,017$ videos with $5,986$ human-annotated dialogues consisting of $40,954$ interleaved dialogue turns. While the dialogue context is visually grounded in specific video segments, the questions further require external knowledge that is not visually present. Thus, the model not only has to identify relevant video parts but also leverage external knowledge to converse within the dialogue. We further provide several baselines evaluated on our dataset and show future challenges associated with this task. The dataset is made publicly available here: https://github.com/c-patsch/OKCV.
- Abstract(参考訳): 外部知識視覚質問応答(OK-VQA)では、モデルは画像内の関連する視覚情報を識別し、外部知識を組み込んで質問に正確に応答する必要がある。
このタスクをビデオに基づいて視覚的に接地された対話設定に拡張するには、会話モデルは時間とともに関連する視覚的詳細を認識し、必要な情報が必ずしも視覚情報に存在しないような質問に答える必要がある。
さらに、その後の対話には、全体的な会話の文脈を考慮する必要がある。
この課題を探求するために,約2,017ドルのビデオと5,986ドルの人称注釈付き対話,40,954ドルのインターリーブ付き対話によるデータセットを導入した。
対話のコンテキストは特定のビデオセグメントに視覚的に基礎を置いているが、質問はさらに視覚的に存在しない外部の知識を必要とする。
したがって、モデルは関連するビデオ部品を識別するだけでなく、対話の中で会話するために外部知識を活用する必要がある。
さらに、データセットに基づいて評価されたいくつかのベースラインを提供し、このタスクに関連する今後の課題を示す。
データセットは、https://github.com/c-patsch/OKCV.comで公開されている。
関連論文リスト
- InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large
Multimodal and Language Models [123.1441379479263]
我々はInfoVisDialという名前のビジュアル対話データセットを構築し、各ラウンドで豊富な情報を提供する。
効果的なデータ収集のための鍵となるアイデアは、大規模マルチモーダルモデル(GITなど)と言語モデル(GPT-3など)をブリッジすることである。
論文 参考訳(メタデータ) (2023-12-21T00:44:45Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded
Dialogue [30.930757279692163]
対話と映像の両方を理解するためには, 対話システムが必要となる。
既存のベンチマークには、対話システムを分析するのに十分なアノテーションがありません。
ビデオや対話でさまざまな推論能力をテストすることができる診断データセットを提示する。
論文 参考訳(メタデータ) (2021-01-01T03:20:22Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。