論文の概要: Learning Compositional Representation for Few-shot Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2102.10575v1
- Date: Sun, 21 Feb 2021 10:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:58:21.253377
- Title: Learning Compositional Representation for Few-shot Visual Question
Answering
- Title(参考訳): Few-shot Visual Question Answeringにおける構成表現の学習
- Authors: Dalu Guo, Dacheng Tao
- Abstract要約: 現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
- 参考スコア(独自算出の注目度): 93.4061107793983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods of Visual Question Answering perform well on the answers with
an amount of training data but have limited accuracy on the novel ones with few
examples. However, humans can quickly adapt to these new categories with just a
few glimpses, as they learn to organize the concepts that have been seen before
to figure the novel class, which are hardly explored by the deep learning
methods. Therefore, in this paper, we propose to extract the attributes from
the answers with enough data, which are later composed to constrain the
learning of the few-shot ones. We generate the few-shot dataset of VQA with a
variety of answers and their attributes without any human effort. With this
dataset, we build our attribute network to disentangle the attributes by
learning their features from parts of the image instead of the whole one.
Experimental results on the VQA v2.0 validation dataset demonstrate the
effectiveness of our proposed attribute network and the constraint between
answers and their corresponding attributes, as well as the ability of our
method to handle the answers with few training examples.
- Abstract(参考訳): 現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
しかし、人間がこれらの新しいカテゴリーに素早く適応できるのは、これまで見てきた概念を整理して、深層学習手法ではほとんど検討されていない新しいクラスを解明することを学ぶためです。
そこで,本稿では,回答から得られた属性を十分なデータで抽出する手法を提案する。
人間の努力なしに、さまざまな回答と属性を持つVQAの少数ショットデータセットを生成します。
このデータセットでは、属性ネットワークを構築し、属性全体ではなく画像の一部から特徴を学習することによって属性を分離します。
vqa v2.0バリデーションデータセットにおける実験結果は,提案する属性ネットワークの有効性と,回答とそれに対応する属性との制約,および少数のトレーニング例で回答を処理する方法の能力を示している。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Learning Concise and Descriptive Attributes for Visual Recognition [25.142065847381758]
数千の属性をクエリすることで、画像機能と競合するパフォーマンスが得られることを示す。
そこで本研究では,これらの属性の簡潔な集合を見つけるための新しい学習・探索手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T16:00:22Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Can I see an Example? Active Learning the Long Tail of Attributes and
Relations [64.50739983632006]
視覚シーンの属性や関係を問う,新たな逐次能動学習フレームワークを提案する。
従来のアクティブな学習手法では、特定の例のラベルを求めるが、エージェントが特定のカテゴリからサンプルを求めることができるように、このフレーミングを反転させる。
このフレーミングを用いて、データ分布の尾からサンプルを求めるアクティブサンプリング手法を導入し、Visual Genomeの古典的アクティブラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-11T19:28:19Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。