論文の概要: Separating Skills and Concepts for Novel Visual Question Answering
- arxiv url: http://arxiv.org/abs/2107.09106v1
- Date: Mon, 19 Jul 2021 18:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:12:38.844287
- Title: Separating Skills and Concepts for Novel Visual Question Answering
- Title(参考訳): 新しい視覚的質問応答のためのスキルと概念の分離
- Authors: Spencer Whitehead, Hui Wu, Heng Ji, Rogerio Feris, Kate Saenko
- Abstract要約: アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 66.46070380927372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization to out-of-distribution data has been a problem for Visual
Question Answering (VQA) models. To measure generalization to novel questions,
we propose to separate them into "skills" and "concepts". "Skills" are visual
tasks, such as counting or attribute recognition, and are applied to "concepts"
mentioned in the question, such as objects and people. VQA methods should be
able to compose skills and concepts in novel ways, regardless of whether the
specific composition has been seen in training, yet we demonstrate that
existing models have much to improve upon towards handling new compositions. We
present a novel method for learning to compose skills and concepts that
separates these two factors implicitly within a model by learning grounded
concept representations and disentangling the encoding of skills from that of
concepts. We enforce these properties with a novel contrastive learning
procedure that does not rely on external annotations and can be learned from
unlabeled image-question pairs. Experiments demonstrate the effectiveness of
our approach for improving compositional and grounding performance.
- Abstract(参考訳): 分散データへの一般化は、視覚質問応答(vqa)モデルにとって問題となっている。
新たな質問への一般化を測るために,これらを「スキル」と「概念」に分けることを提案する。
スキル」はカウントや属性認識といった視覚的なタスクであり、オブジェクトや人といった質問で言及される「概念」に適用される。
vqaメソッドは、トレーニング中に特定の構成が見られたかどうかに関わらず、新しい方法でスキルや概念を構成できるべきであるが、既存のモデルが新しい構成を扱う上で改善の余地があることを実証する。
基礎概念表現を学習し,概念とスキルのエンコーディングを区別することで,これらの2つの要素をモデル内で暗黙的に分離する,新しいスキルや概念を学習する手法を提案する。
外部アノテーションに依存しず,ラベル付き画像検索ペアから学習可能な,新しいコントラスト学習手順でこれらの特性を強制する。
実験により, コンポジションおよび接地性能向上のためのアプローチの有効性を実証した。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - Explaining Explainability: Understanding Concept Activation Vectors [35.37586279472797]
最近の解釈可能性法では、概念に基づく説明を用いて、ディープラーニングモデルの内部表現を、人間が慣れ親しんだ言語に翻訳する。
これは、ニューラルネットワークの表現空間にどの概念が存在するかを理解する必要がある。
本研究では,概念活性化ベクトル(Concept Activation Vectors, CAV)の3つの特性について検討する。
本研究では,これらの特性の存在を検出するためのツールを導入し,それらが引き起こした説明にどのように影響するかを把握し,その影響を最小限に抑えるための推奨事項を提供する。
論文 参考訳(メタデータ) (2024-04-04T17:46:20Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Succinct Representations for Concepts [12.134564449202708]
chatGPTのようなファンデーションモデルは、様々なタスクで顕著なパフォーマンスを示している。
しかし、多くの疑問に対して、彼らは正確なように見える誤った答えを生み出すかもしれない。
本稿では,圏論に基づく概念の簡潔な表現について述べる。
論文 参考訳(メタデータ) (2023-03-01T12:11:23Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。