論文の概要: Transferring Domain-Agnostic Knowledge in Video Question Answering
- arxiv url: http://arxiv.org/abs/2110.13395v1
- Date: Tue, 26 Oct 2021 03:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 13:51:17.746131
- Title: Transferring Domain-Agnostic Knowledge in Video Question Answering
- Title(参考訳): ビデオ質問応答におけるドメインに依存しない知識の伝達
- Authors: Tianran Wu, Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima and
Haruo Takemura
- Abstract要約: ビデオ質問応答(Video QA)は、関連するビデオクリップに基づいて、所定の質問に答えるように設計されている。
本稿では,ドメインに依存しない知識とドメイン固有の知識を導入することによって,伝達学習手法を検討する。
i) ドメインに依存しない知識は転送可能であり、(ii) 提案した転送学習フレームワークは、ビデオQAのパフォーマンスを効果的に向上させることができる。
- 参考スコア(独自算出の注目度): 27.948768254771537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering (VideoQA) is designed to answer a given question
based on a relevant video clip. The current available large-scale datasets have
made it possible to formulate VideoQA as the joint understanding of visual and
language information. However, this training procedure is costly and still less
competent with human performance. In this paper, we investigate a transfer
learning method by the introduction of domain-agnostic knowledge and
domain-specific knowledge. First, we develop a novel transfer learning
framework, which finetunes the pre-trained model by applying domain-agnostic
knowledge as the medium. Second, we construct a new VideoQA dataset with 21,412
human-generated question-answer samples for comparable transfer of knowledge.
Our experiments show that: (i) domain-agnostic knowledge is transferable and
(ii) our proposed transfer learning framework can boost VideoQA performance
effectively.
- Abstract(参考訳): ビデオ質問応答(Video QA)は、関連するビデオクリップに基づいて所定の質問に答えるように設計されている。
現在利用可能な大規模なデータセットにより、視覚情報と言語情報の合同理解としてVideoQAを定式化することが可能になった。
しかし、この訓練手順は費用がかかり、人間の能力には及ばない。
本稿では,ドメインに依存しない知識とドメイン固有の知識を導入することによって,伝達学習手法を検討する。
まず,ドメインに依存しない知識を媒体として,事前学習モデルの微調整を行う。
第2に,21,412個の人間生成質問応答サンプルを用いた新たなビデオqaデータセットを構築し,それと同等の知識の伝達を行う。
私たちの実験では、
(i)ドメインに依存しない知識は伝達可能で、
(II)提案する転送学習フレームワークは,ビデオQA性能を効果的に向上させることができる。
関連論文リスト
- Bridged-GNN: Knowledge Bridge Learning for Effective Knowledge Transfer [65.42096702428347]
グラフニューラルネットワーク(GNN)は、隣接するノードから情報を集約する。
知識ブリッジ学習(KBL)は、対象ドメインに対する知識強化後部分布を学習する。
Bridged-GNNには、Bridged-Graphを構築するためのAdaptive Knowledge Retrievalモジュールと、Graph Knowledge Transferモジュールが含まれている。
論文 参考訳(メタデータ) (2023-08-18T12:14:51Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - VLC-BERT: Visual Question Answering with Contextualized Commonsense
Knowledge [48.457788853408616]
本稿では,視覚的・テキスト的手がかりとともに,外部の常識知識を生成,選択,符号化する手法を提案する。
VLC-BERTは静的知識ベースを利用した既存モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T22:01:17Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Unsupervised Cross-Domain Prerequisite Chain Learning using Variational
Graph Autoencoders [2.735701323590668]
最適化された変動グラフオートエンコーダを用いて,教師なしのクロスドメイン概念前提チェーン学習を提案する。
私たちのモデルは、情報豊富なドメインから情報貧弱ドメインに概念前提条件関係を転送することを学びます。
また、CVとバイオインフォマティクスという2つの新しいドメインを導入することで、既存のデータセットを拡張します。
論文 参考訳(メタデータ) (2021-05-07T21:02:41Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Based Visual Question Answering in Videos [36.23723122336639]
我々は,人気のシットコムについて,24,282対の質問応答対を用いたビデオデータセットであるKnowIT VQAを紹介する。
このデータセットは、視覚的、テキスト的、時間的コヒーレンス推論と知識に基づく質問を組み合わせる。
i) 知識の取り込みはビデオにおけるVQAの卓越した改善をもたらし, (ii) KnowIT VQAの性能は人間の精度よりかなり遅れている。
論文 参考訳(メタデータ) (2020-04-17T02:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。