論文の概要: Chunk-aware Alignment and Lexical Constraint for Visual Entailment with
Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2207.11401v1
- Date: Sat, 23 Jul 2022 03:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:42:59.081393
- Title: Chunk-aware Alignment and Lexical Constraint for Visual Entailment with
Natural Language Explanations
- Title(参考訳): 自然言語説明を伴う視覚インテリメントにおけるチャンクアウェアアライメントと語彙制約
- Authors: Qian Yang and Yunxin Li and Baotian Hu and Lin Ma and Yuxing Ding and
Min Zhang
- Abstract要約: 自然言語による視覚的な説明は、テキストと画像のペアの関係を推測し、意思決定プロセスを説明する文を生成することを目的としている。
従来の手法は、主に事前学習された視覚言語モデルを使用して、関係推論と言語モデルを実行し、対応する説明を生成する。
本稿では,CALeC と呼ばれる,Chunk-aware Alignment と Lexical Constraint に基づく統一手法を提案する。
- 参考スコア(独自算出の注目度): 38.50987889221086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Entailment with natural language explanations aims to infer the
relationship between a text-image pair and generate a sentence to explain the
decision-making process. Previous methods rely mainly on a pre-trained
vision-language model to perform the relation inference and a language model to
generate the corresponding explanation. However, the pre-trained
vision-language models mainly build token-level alignment between text and
image yet ignore the high-level semantic alignment between the phrases (chunks)
and visual contents, which is critical for vision-language reasoning. Moreover,
the explanation generator based only on the encoded joint representation does
not explicitly consider the critical decision-making points of relation
inference. Thus the generated explanations are less faithful to visual-language
reasoning. To mitigate these problems, we propose a unified Chunk-aware
Alignment and Lexical Constraint based method, dubbed as CALeC. It contains a
Chunk-aware Semantic Interactor (arr. CSI), a relation inferrer, and a Lexical
Constraint-aware Generator (arr. LeCG). Specifically, CSI exploits the sentence
structure inherent in language and various image regions to build chunk-aware
semantic alignment. Relation inferrer uses an attention-based reasoning network
to incorporate the token-level and chunk-level vision-language representations.
LeCG utilizes lexical constraints to expressly incorporate the words or chunks
focused by the relation inferrer into explanation generation, improving the
faithfulness and informativeness of the explanations. We conduct extensive
experiments on three datasets, and experimental results indicate that CALeC
significantly outperforms other competitor models on inference accuracy and
quality of generated explanations.
- Abstract(参考訳): 自然言語による視覚的な説明は、テキストイメージペア間の関係を推測し、意思決定プロセスを説明する文を生成することを目的としている。
従来の手法は、主に事前学習された視覚言語モデルを使用して、関係推論と言語モデルを実行し、対応する説明を生成する。
しかし、事前訓練された視覚言語モデルは、主にテキストと画像の間のトークンレベルのアライメントを構築し、フレーズ(チャンク)と視覚コンテンツの間の高レベルな意味的アライメントを無視している。
さらに、符号化された共同表現のみに基づく説明生成器は、関係推論の臨界決定点を明示的に考慮していない。
したがって、生成された説明は視覚言語推論に忠実でない。
これらの問題を緩和するため、我々はCALeCと呼ばれるChunk-aware AlignmentとLexical Constraintベースの統合手法を提案する。
チャンクアウェア・セマンティクス・インタラクタ(arr. csi)、リレーション・インフェラー(relation inferrer)、レキシカル制約アウェア・ジェネレータ(arr. lecg)を含む。
具体的には、CSIは言語や様々な画像領域に固有の文構造を利用して、チャンク認識のセマンティックアライメントを構築する。
relation inferrerは注意に基づく推論ネットワークを使用してトークンレベルとチャンクレベルのビジョン言語表現を組み込む。
LeCGは語彙制約を利用して、関係推論に焦点をあてた単語やチャンクを説明生成に明示的に組み入れ、説明の忠実さと情報性を改善する。
我々は3つのデータセットについて広範な実験を行い、実験結果から、CALeCは他の競合モデルよりも精度が高く、生成した説明の精度も優れていることが示唆された。
関連論文リスト
- Natural Language Inference Improves Compositionality in Vision-Language Models [35.71815423077561]
所与の前提から細部と矛盾を生じさせる原則的アプローチを提案する。
CECEは、その中核的な意味を維持しながら、語彙的に多様な文を生成する。
我々は、追加の微調整を必要とせず、従来の方法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-10-29T17:54:17Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - 3VL: using Trees to teach Vision & Language models compositional
concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。
テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。
また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for
Scene Graph Generation [12.977857322594206]
一段階のシーングラフ生成では、スパース提案セットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。
モデルにフレキシブルな自己推論機能を加えるために,視覚言語知識を用いた自己推論変換器(SrTR)を提案する。
大規模な事前学習型画像テキスト基礎モデルに触発され、視覚言語学的な事前知識が導入された。
論文 参考訳(メタデータ) (2022-12-19T09:47:27Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。