論文の概要: Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model
- arxiv url: http://arxiv.org/abs/2206.05281v1
- Date: Fri, 10 Jun 2022 07:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 17:31:19.198048
- Title: Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model
- Title(参考訳): より少ない - 強力なVizWizモデルとしてのCLIP機能の線形層
- Authors: Fabian Deuser, Konrad Habel, Philipp J. R\"osch, Norbert Oswald
- Abstract要約: 視覚的質問応答のような多目的タスクの現在のアーキテクチャは、その複雑さに悩まされている。
特徴抽出器の微調整を必要としないCLIPアーキテクチャを提案する。
VizWiz 2022 Visual Question Answering Challenge: Predict Answer to a Visual Question and AP score of 83.78 % on Task 2: Predict Answerability of a Visual Question。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current architectures for multi-modality tasks such as visual question
answering suffer from their high complexity. As a result, these architectures
are difficult to train and require high computational resources. To address
these problems we present a CLIP-based architecture that does not require any
fine-tuning of the feature extractors. A simple linear classifier is used on
the concatenated features of the image and text encoder. During training an
auxiliary loss is added which operates on the answer types. The resulting
classification is then used as an attention gate on the answer class selection.
On the VizWiz 2022 Visual Question Answering Challenge we achieve 60.15 %
accuracy on Task 1: Predict Answer to a Visual Question and AP score of 83.78 %
on Task 2: Predict Answerability of a Visual Question.
- Abstract(参考訳): 視覚的質問応答のようなマルチモダリティタスクの現在のアーキテクチャは、その複雑さに苦しむ。
その結果、これらのアーキテクチャは訓練が困難であり、高い計算資源を必要とする。
これらの問題を解決するために,機能抽出器の微調整を必要としないCLIPベースのアーキテクチャを提案する。
単純な線形分類器は、画像とテキストエンコーダの連結特徴に使用される。
トレーニング中に補助的な損失が追加され、応答タイプが動作する。
結果の分類は、回答クラス選択の注意ゲートとして使用される。
vizwiz 2022 visual question answering challengeでは、タスク1で60.15 %の精度を達成している: ビジュアル質問に対する応答予測と、タスク2で83.78 %のapスコア: ビジュアル質問の応答可能性の予測。
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Zero-shot Visual Question Answering using Knowledge Graph [19.142028501513366]
本稿では,知識グラフとマスクに基づく学習機構を用いたゼロショットVQAアルゴリズムを提案する。
実験の結果,Zero-shot VQAでは未知の解が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-12T12:17:18Z) - Knowledge Graph Question Answering using Graph-Pattern Isomorphism [0.0]
TeBaQAは、SPARQLクエリの基本グラフパターンからグラフ同型に基づいて、質問に答えることを学ぶ。
TeBaQAはQALD-8で最先端のパフォーマンスを達成し、QALD-9とLC-QuAD v1で同等の結果を提供する。
論文 参考訳(メタデータ) (2021-03-11T16:03:24Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Towards Learning Convolutions from Scratch [34.71001535076825]
畳み込みはコンピュータビジョンで使用されるアーキテクチャの最も重要な構成要素の1つである。
現在の最先端アーキテクチャ検索アルゴリズムでは、データから学習するのではなく、畳み込みを既存のモジュールの1つとして使用しています。
ローカル接続でアーキテクチャを学習するLASSOアルゴリズムの簡単な変種である$beta$-LASSOを提案する。
論文 参考訳(メタデータ) (2020-07-27T16:13:13Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。