論文の概要: Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model
- arxiv url: http://arxiv.org/abs/2206.05281v1
- Date: Fri, 10 Jun 2022 07:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 17:31:19.198048
- Title: Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model
- Title(参考訳): より少ない - 強力なVizWizモデルとしてのCLIP機能の線形層
- Authors: Fabian Deuser, Konrad Habel, Philipp J. R\"osch, Norbert Oswald
- Abstract要約: 視覚的質問応答のような多目的タスクの現在のアーキテクチャは、その複雑さに悩まされている。
特徴抽出器の微調整を必要としないCLIPアーキテクチャを提案する。
VizWiz 2022 Visual Question Answering Challenge: Predict Answer to a Visual Question and AP score of 83.78 % on Task 2: Predict Answerability of a Visual Question。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current architectures for multi-modality tasks such as visual question
answering suffer from their high complexity. As a result, these architectures
are difficult to train and require high computational resources. To address
these problems we present a CLIP-based architecture that does not require any
fine-tuning of the feature extractors. A simple linear classifier is used on
the concatenated features of the image and text encoder. During training an
auxiliary loss is added which operates on the answer types. The resulting
classification is then used as an attention gate on the answer class selection.
On the VizWiz 2022 Visual Question Answering Challenge we achieve 60.15 %
accuracy on Task 1: Predict Answer to a Visual Question and AP score of 83.78 %
on Task 2: Predict Answerability of a Visual Question.
- Abstract(参考訳): 視覚的質問応答のようなマルチモダリティタスクの現在のアーキテクチャは、その複雑さに苦しむ。
その結果、これらのアーキテクチャは訓練が困難であり、高い計算資源を必要とする。
これらの問題を解決するために,機能抽出器の微調整を必要としないCLIPベースのアーキテクチャを提案する。
単純な線形分類器は、画像とテキストエンコーダの連結特徴に使用される。
トレーニング中に補助的な損失が追加され、応答タイプが動作する。
結果の分類は、回答クラス選択の注意ゲートとして使用される。
vizwiz 2022 visual question answering challengeでは、タスク1で60.15 %の精度を達成している: ビジュアル質問に対する応答予測と、タスク2で83.78 %のapスコア: ビジュアル質問の応答可能性の予測。
関連論文リスト
- Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。
VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。
VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文 参考訳(メタデータ) (2024-08-16T08:37:56Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - VISREAS: Complex Visual Reasoning with Unanswerable Questions [29.398956873585796]
本稿では,新しい視覚的質問応答データセットVISREASを紹介する。
それは、共通性とオブジェクト、属性、関係の差異をトラバースし、摂動することで構成される、応答可能で解決不可能なビジュアルクエリで構成されている。
このタスクのユニークな特徴は、回答する前のイメージに対する質問応答性を検証すること、そして最先端モデルの貧弱な性能が、新しいモジュラーベースラインであるLOGIC2VISIONの設計に影響を与えたことである。
論文 参考訳(メタデータ) (2024-02-23T00:12:10Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Zero-shot Visual Question Answering using Knowledge Graph [19.142028501513366]
本稿では,知識グラフとマスクに基づく学習機構を用いたゼロショットVQAアルゴリズムを提案する。
実験の結果,Zero-shot VQAでは未知の解が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-12T12:17:18Z) - Knowledge Graph Question Answering using Graph-Pattern Isomorphism [0.0]
TeBaQAは、SPARQLクエリの基本グラフパターンからグラフ同型に基づいて、質問に答えることを学ぶ。
TeBaQAはQALD-8で最先端のパフォーマンスを達成し、QALD-9とLC-QuAD v1で同等の結果を提供する。
論文 参考訳(メタデータ) (2021-03-11T16:03:24Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。