論文の概要: AlignVE: Visual Entailment Recognition Based on Alignment Relations
- arxiv url: http://arxiv.org/abs/2211.08736v1
- Date: Wed, 16 Nov 2022 07:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:26:00.340285
- Title: AlignVE: Visual Entailment Recognition Based on Alignment Relations
- Title(参考訳): AlignVE:アライメント関係に基づく視覚的エンターメント認識
- Authors: Biwei Cao, Jiuxin Cao, Jie Gui, Jiayun Shen, Bo Liu, Lei He, Yuan Yan
Tang and James Tin-Yau Kwok
- Abstract要約: 視覚的エンテーメント(VE)とは、仮説テキストのセマンティクスが所定の前提画像から推測できるかどうかを認識することである。
AlignVEと呼ばれる新しいアーキテクチャは、関係性相互作用法による視覚的包絡問題を解決するために提案されている。
我々のアーキテクチャはSNLI-VEデータセット上で72.45%の精度に達し、同じ設定で以前のコンテントベースモデルよりも優れています。
- 参考スコア(独自算出の注目度): 32.190603887676666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual entailment (VE) is to recognize whether the semantics of a hypothesis
text can be inferred from the given premise image, which is one special task
among recent emerged vision and language understanding tasks. Currently, most
of the existing VE approaches are derived from the methods of visual question
answering. They recognize visual entailment by quantifying the similarity
between the hypothesis and premise in the content semantic features from multi
modalities. Such approaches, however, ignore the VE's unique nature of relation
inference between the premise and hypothesis. Therefore, in this paper, a new
architecture called AlignVE is proposed to solve the visual entailment problem
with a relation interaction method. It models the relation between the premise
and hypothesis as an alignment matrix. Then it introduces a pooling operation
to get feature vectors with a fixed size. Finally, it goes through the
fully-connected layer and normalization layer to complete the classification.
Experiments show that our alignment-based architecture reaches 72.45\% accuracy
on SNLI-VE dataset, outperforming previous content-based models under the same
settings.
- Abstract(参考訳): Visual Entailment (VE) は、仮説テキストのセマンティクスが与えられた前提画像から推測できるかどうかを認識することを目的としている。
現在、既存のveアプローチのほとんどは、視覚的な質問応答の方法に由来する。
彼らは、マルチモーダル性からコンテンツセマンティック特徴の仮説と前提の類似性を定量化し、視覚的エンテーメントを認識する。
しかし、そのようなアプローチは前提と仮説の間の関係推論のveのユニークな性質を無視している。
そこで本稿では,関係相互作用法を用いて視覚的包摂問題を解決するためにAlignVEと呼ばれる新しいアーキテクチャを提案する。
これは前提と仮説の関係をアライメント行列としてモデル化する。
次に、固定サイズで特徴ベクトルを取得するためのプーリング操作を導入する。
最後に、完全な連結層と正規化層を通り、分類を完了します。
実験の結果、snli-veデータセットではアライメントベースのアーキテクチャが72.45\%の精度に達し、同じ設定で以前のコンテンツベースのモデルよりも優れていることがわかった。
関連論文リスト
- Learning from Semi-Factuals: A Debiased and Semantic-Aware Framework for
Generalized Relation Discovery [12.716874398564482]
Generalized Relation Discovery (GRD) は、既存の事前定義された関係にある未ラベルのインスタンスを特定したり、新しい関係を発見することを目的としている。
本稿では,2段階の半実物から学習することで,この課題に対する新しいフレームワーク,SFGRDを提案する。
SFGRDの精度は2.36%$sim$5.78%、コサイン類似度は32.19%$sim$84.45%である。
論文 参考訳(メタデータ) (2024-01-12T02:38:55Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - SA-VQA: Structured Alignment of Visual and Semantic Representations for
Visual Question Answering [29.96818189046649]
本稿では,視覚とテキストのグラフ表現を扱う構造化アライメントを提案する。
実験結果に示すように,このような構造的アライメントは推論性能を向上させる。
提案したモデルは、事前トレーニングなしで、GQAデータセット上で最先端の手法を上回り、VQA-v2データセット上で非事前トレーニングされた最先端の手法を上回ります。
論文 参考訳(メタデータ) (2022-01-25T22:26:09Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。