論文の概要: On the hidden treasure of dialog in video question answering
- arxiv url: http://arxiv.org/abs/2103.14517v1
- Date: Fri, 26 Mar 2021 15:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 15:46:26.027033
- Title: On the hidden treasure of dialog in video question answering
- Title(参考訳): ビデオ質問応答における対話の秘宝について
- Authors: Deniz Engin, Yannis Avrithis, Ngoc Q. K. Duong, Fran\c{c}ois
Schnitzler
- Abstract要約: 外部ソースなしでストーリー全体を理解するための新しいアプローチを提示します。
従来の作業とは異なり、ダイアログをノイズの多いソースとして扱い、テキスト記述に変換する。
我々のモデルは、KnowIT VQAデータセットにおける技術状況よりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 18.16094563534453
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: High-level understanding of stories in video such as movies and TV shows from
raw data is extremely challenging. Modern video question answering (VideoQA)
systems often use additional human-made sources like plot synopses, scripts,
video descriptions or knowledge bases. In this work, we present a new approach
to understand the whole story without such external sources. The secret lies in
the dialog: unlike any prior work, we treat dialog as a noisy source to be
converted into text description via dialog summarization, much like recent
methods treat video. The input of each modality is encoded by transformers
independently, and a simple fusion method combines all modalities, using soft
temporal attention for localization over long inputs. Our model outperforms the
state of the art on the KnowIT VQA dataset by a large margin, without using
question-specific human annotation or human-made plot summaries. It even
outperforms human evaluators who have never watched any whole episode before.
- Abstract(参考訳): 生データから映画やテレビ番組などの映像における物語の高レベルな理解は極めて困難である。
現代のビデオ質問応答(videoqa)システムは、プロット合成、スクリプト、ビデオ記述、知識ベースなどの人為的な情報源をしばしば使用する。
本研究では,このような外部ソースを使わずに物語全体を理解するための新しいアプローチを提案する。
ダイアログの秘密はダイアログにある: これまでの作業とは異なり、ダイアログをノイズの多いソースとして扱い、ダイアログの要約を通じてテキスト記述に変換する。
それぞれのモダリティの入力は変換器によって独立に符号化され、単純な融合法は全てのモダリティを結合し、ソフトな時間的注意を用いて長い入力の局所化を行う。
我々のモデルは、疑問固有の人的アノテーションや人為的なプロット要約を用いることなく、大きなマージンでKnowIT VQAデータセット上の技術状況より優れている。
エピソード全体を見たことがない人間の評価者よりも優れています。
関連論文リスト
- SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - Learning Video Context as Interleaved Multimodal Sequences [40.15446453928028]
MovieSeqは、ビデオコンテキストを理解するための幅広い課題に対処するために開発されたマルチモーダル言語モデルである。
私たちの中核的な考え方は、動画をインターリーブされたマルチモーダルシーケンスとして表現することであり、外部知識データベースをリンクするか、オフラインモデルを使用するかのどちらかです。
有効性を示すため,MovieSeqの性能を6つのデータセットで検証した。
論文 参考訳(メタデータ) (2024-07-31T17:23:57Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding [13.52545041750095]
我々は、人気映画やテレビシリーズの5,193本のビデオ要約を合計869時間収録したビデオ言語ストーリーデータセット『Synopses of Movie Narratives』(SyMoN)をリリースした。
SyMoNは、人間のクリエーターによって作られ、人間のオーディエンスを意図した、自然主義的なストーリーテリングビデオを撮影する。
論文 参考訳(メタデータ) (2022-03-11T01:45:33Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Co-attentional Transformers for Story-Based Video Understanding [24.211255523490692]
本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-27T07:17:09Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Knowledge-Based Video Question Answering with Unsupervised Scene
Descriptions [27.63022376316052]
知識に基づくビデオストーリー質問応答モデルであるROLLを設計する。
ROLLでは,各タスクが,1)シーン対話処理,2)教師なし映像シーン記述生成,3)弱い教師付き方式で外部知識を取得することによって,リッチで多様な情報を抽出する役割を担っている。
与えられた質問に正しく答えるために、各インスパイアされた認知タスクによって生成された情報はトランスフォーマーを介して符号化され、モダリティ重み付け機構を介して融合される。
論文 参考訳(メタデータ) (2020-07-17T04:26:38Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。