論文の概要: Fine-Grained Visual Entailment
- arxiv url: http://arxiv.org/abs/2203.15704v1
- Date: Tue, 29 Mar 2022 16:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:37:54.160089
- Title: Fine-Grained Visual Entailment
- Title(参考訳): 細粒度視機能
- Authors: Christopher Thomas and Yipeng Zhang and Shih-Fu Chang
- Abstract要約: そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
- 参考スコア(独自算出の注目度): 51.66881737644983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual entailment is a recently proposed multimodal reasoning task where the
goal is to predict the logical relationship of a piece of text to an image. In
this paper, we propose an extension of this task, where the goal is to predict
the logical relationship of fine-grained knowledge elements within a piece of
text to an image. Unlike prior work, our method is inherently explainable and
makes logical predictions at different levels of granularity. Because we lack
fine-grained labels to train our method, we propose a novel multi-instance
learning approach which learns a fine-grained labeling using only sample-level
supervision. We also impose novel semantic structural constraints which ensure
that fine-grained predictions are internally semantically consistent. We
evaluate our method on a new dataset of manually annotated knowledge elements
and show that our method achieves 68.18\% accuracy at this challenging task
while significantly outperforming several strong baselines. Finally, we present
extensive qualitative results illustrating our method's predictions and the
visual evidence our method relied on. Our code and annotated dataset can be
found here: https://github.com/SkrighYZ/FGVE.
- Abstract(参考訳): visual entailmentは、最近提案されたマルチモーダル推論タスクで、テキストと画像の論理的関係を予測することを目的としている。
本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
先行研究とは異なり,本手法は本質的に説明可能であり,異なる粒度で論理的予測を行う。
本手法を訓練するには細粒度ラベルが欠如しているため,サンプルレベルの監督だけで細粒度ラベルを学習する新しいマルチインスタンス学習手法を提案する。
また、細粒度予測が内部的にセマンティックに一貫性があることを保証する新しいセマンティック構造制約を課す。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題において68.18 %の精度を達成し,強いベースラインを著しく上回ることを示す。
最後に,提案手法の予測と,提案手法が依存する視覚的な証拠を示す,広範囲な質的結果を示す。
私たちのコードと注釈付きデータセットは以下の通りです。
関連論文リスト
- Probabilistic Prompt Learning for Dense Prediction [45.577125507777474]
本稿では,高密度予測タスクにおける視覚言語知識を完全に活用するための,確率論的素早い学習法を提案する。
学習可能なクラスに依存しない属性プロンプトを導入し、オブジェクトクラス全体にわたって普遍的な属性を記述する。
属性は、クラス固有のテキスト分布を定義するために、クラス情報と視覚的コンテキスト知識と組み合わせられる。
論文 参考訳(メタデータ) (2023-04-03T08:01:27Z) - SMiLE: Schema-augmented Multi-level Contrastive Learning for Knowledge
Graph Link Prediction [28.87290783250351]
リンク予測は、知識グラフにおけるエンティティ間の欠落したリンクを推測するタスクである。
本稿では,知識グラフリンク予測を行うための新しいマルチレベルコントラスト学習フレームワーク(SMiLE)を提案する。
論文 参考訳(メタデータ) (2022-10-10T17:40:19Z) - New Intent Discovery with Pre-training and Contrastive Learning [21.25371293641141]
新しい意図発見は、ユーザ発話から新しい意図カテゴリーを明らかにして、サポート対象クラスのセットを拡張することを目的としている。
既存のアプローチは通常、大量のラベル付き発話に依存する。
本稿では,クラスタリングのためのラベルなしデータにおける自己超越的信号を活用するために,新たなコントラスト損失を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:07:25Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。