論文の概要: Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2104.05965v1
- Date: Tue, 13 Apr 2021 06:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:46:08.040820
- Title: Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation
- Title(参考訳): 知識蒸留による視覚的質問応答予測課題における不一致の対処
- Authors: Jae Won Cho, Dong-Jin Kim, Jinsoo Choi, Yunjae Jung, In So Kweon
- Abstract要約: 我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
- 参考スコア(独自算出の注目度): 75.1682163844354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the issues of missing modalities that have arisen
from the Visual Question Answer-Difference prediction task and find a novel
method to solve the task at hand. We address the missing modality-the ground
truth answers-that are not present at test time and use a privileged knowledge
distillation scheme to deal with the issue of the missing modality. In order to
efficiently do so, we first introduce a model, the "Big" Teacher, that takes
the image/question/answer triplet as its input and outperforms the baseline,
then use a combination of models to distill knowledge to a target network
(student) that only takes the image/question pair as its inputs. We experiment
our models on the VizWiz and VQA-V2 Answer Difference datasets and show through
extensive experimentation and ablation the performances of our method and a
diverse possibility for future research.
- Abstract(参考訳): 本研究では,視覚的質問応答差予測タスクから生じたモダリティの欠如の問題に対処し,その課題を解決するための新しい方法を提案する。
我々は,試験時間に存在しない欠如モダリティ(基礎的真理の答え)に対処し,欠如モダリティの問題に対処するために特権的知識蒸留スキームを使用する。
そこで,我々はまず,画像・質問・回答トリプレットを入力とし,ベースラインを上回り,モデルの組み合わせを用いて知識を対象ネットワーク(学生)に蒸留し,画像・質問ペアのみを入力とする「ビッグ」教師を紹介する。
我々は,vizwiz と vqa-v2 の回答差データセットを用いてモデル実験を行い,本手法の性能と今後の研究への多様な可能性を明らかにする。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Multi-Image Visual Question Answering [0.0]
損失関数の異なる特徴抽出法について実験的検討を行った。
本稿では,1つの基礎的真実しか持たない複数の画像入力を用いた視覚質問応答タスクのための新しいデータセットを提案する。
Resnet+RCNNイメージ機能とBert埋め込みを利用した最終モデルは、スタックされた注目ネットワークにインスパイアされたもので、CLEVER+TinyImagenetデータセット上で39%の単語精度と99%の画像精度を提供する。
論文 参考訳(メタデータ) (2021-12-27T14:28:04Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-08-08T16:38:03Z) - Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual
Question Answering [26.21870452615222]
FVQAは、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
問題指向で情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。
与えられた問題に最も関係のある異なる層から証拠を捉えるために,モダリティを考慮した異種グラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-16T11:03:37Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。