論文の概要: Character Matters: Video Story Understanding with Character-Aware
Relations
- arxiv url: http://arxiv.org/abs/2005.08646v1
- Date: Sat, 9 May 2020 06:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 07:10:33.882006
- Title: Character Matters: Video Story Understanding with Character-Aware
Relations
- Title(参考訳): キャラクタ問題:キャラクタ認識関係を用いたビデオストーリー理解
- Authors: Shijie Geng, Ji Zhang, Zuohui Fu, Peng Gao, Hang Zhang, Gerard de Melo
- Abstract要約: ビデオストーリー質問回答(VSQA)は、モデルのより高度な理解能力をベンチマークする効果的な方法を提供する。
現在のVSQAメソッドは、単にシーンから一般的な視覚的特徴を抽出するだけである。
本稿では,文字認識関係を改良する新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 47.69347058141917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from short videos and GIFs, video stories contain clear plots and
lists of principal characters. Without identifying the connection between
appearing people and character names, a model is not able to obtain a genuine
understanding of the plots. Video Story Question Answering (VSQA) offers an
effective way to benchmark higher-level comprehension abilities of a model.
However, current VSQA methods merely extract generic visual features from a
scene. With such an approach, they remain prone to learning just superficial
correlations. In order to attain a genuine understanding of who did what to
whom, we propose a novel model that continuously refines character-aware
relations. This model specifically considers the characters in a video story,
as well as the relations connecting different characters and objects. Based on
these signals, our framework enables weakly-supervised face naming through
multi-instance co-occurrence matching and supports high-level reasoning
utilizing Transformer structures. We train and test our model on the six
diverse TV shows in the TVQA dataset, which is by far the largest and only
publicly available dataset for VSQA. We validate our proposed approach over
TVQA dataset through extensive ablation study.
- Abstract(参考訳): 短いビデオやGIFとは異なり、ビデオストーリーには明確なプロットと主要キャラクターのリストが含まれている。
出現する人物と人物名の関連性を識別しなければ、モデルはプロットの真の理解を得ることができない。
ビデオストーリー質問回答(VSQA)は、モデルのより高度な理解能力をベンチマークする効果的な方法を提供する。
しかし、現在のVSQAメソッドはシーンから一般的な視覚的特徴を抽出するだけである。
このようなアプローチでは、表面的相関だけを学ぶ傾向がある。
そこで我々は,誰が何をしたのかを真に理解するために,文字認識関係を継続的に洗練する新しいモデルを提案する。
このモデルは、ビデオストーリーのキャラクタを特に考慮し、異なるキャラクタとオブジェクトを関連付ける関係を考察する。
これらの信号に基づいて,マルチスタンス共起マッチングによる弱教師付き顔の命名を可能にし,トランスフォーマー構造を利用した高レベル推論をサポートする。
私たちは、tvqaデータセット内の6つの多様なテレビ番組でモデルをトレーニングし、テストしています。
広範囲なアブレーション研究により,TVQAデータセットに対する提案手法の有効性を検証した。
関連論文リスト
- Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,関連する情報を符号化するキー隠蔽状態をローカライズするために,語彙投影とアクティベーションパッチ手法を用いる。
特定の回答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが示される。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Co-attentional Transformers for Story-Based Video Understanding [24.211255523490692]
本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-27T07:17:09Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。