論文の概要: NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2203.05081v1
- Date: Wed, 9 Mar 2022 22:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-12 03:11:03.181993
- Title: NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks
- Title(参考訳): NLX-GPT:視覚・視覚言語課題における自然言語説明モデル
- Authors: Fawaz Sammani, Tanmoy Mukherjee, Nikos Deligiannis
- Abstract要約: 自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
- 参考スコア(独自算出の注目度): 18.13793282306575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language explanation (NLE) models aim at explaining the
decision-making process of a black box system via generating natural language
sentences which are human-friendly, high-level and fine-grained. Current NLE
models explain the decision-making process of a vision or vision-language model
(a.k.a., task model), e.g., a VQA model, via a language model (a.k.a.,
explanation model), e.g., GPT. Other than the additional memory resources and
inference time required by the task model, the task and explanation models are
completely independent, which disassociates the explanation from the reasoning
process made to predict the answer. We introduce NLX-GPT, a general, compact
and faithful language model that can simultaneously predict an answer and
explain it. We first conduct pre-training on large scale data of image-caption
pairs for general understanding of images, and then formulate the answer as a
text prediction task along with the explanation. Without region proposals nor a
task model, our resulting overall framework attains better evaluation scores,
contains much less parameters and is 15$\times$ faster than the current SoA
model. We then address the problem of evaluating the explanations which can be
in many times generic, data-biased and can come in several forms. We therefore
design 2 new evaluation measures: (1) explain-predict and (2) retrieval-based
attack, a self-evaluation framework that requires no labels. Code is at:
https://github.com/fawazsammani/nlxgpt.
- Abstract(参考訳): 自然言語説明(NLE)モデルは、ヒューマンフレンドリーでハイレベルできめ細かい自然言語文を生成することによって、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
現在のNLEモデルは、視覚または視覚言語モデル(タスクモデル)、例えばVQAモデル(言語モデル)、GPT(言語モデル)の意思決定プロセスを説明する。
追加のメモリリソースとタスクモデルに必要な推論時間以外には、タスクと説明モデルは完全に独立しており、回答を予測するための推論プロセスから説明を分離している。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
まず,画像の一般的な理解のために,画像キャプチャペアの大規模データに対して事前学習を行い,説明とともにテキスト予測タスクとして回答を定式化する。
リージョンの提案やタスクモデルがなければ、その結果、フレームワーク全体の評価スコアが向上し、パラメータが大幅に少なくなり、現在のSoAモデルよりも15$\times$高速になります。
次に,説明を多用し,データバイアスを多用し,複数の形式に分類し,評価する問題に対処する。
そこで我々は,(1)説明予測と(2)ラベルを必要としない自己評価フレームワークである検索に基づく攻撃の2つの新しい評価手法を設計した。
コードはhttps://github.com/fawazsammani/nlxgpt。
関連論文リスト
- GOFA: A Generative One-For-All Model for Joint Graph Language Modeling [38.267339613261996]
この問題を解決するために,新たに生成グラフ言語モデルGOFAを提案する。
GOFAは、新たに提案されたグラフレベルの次単語予測、質問応答、構造的タスクに基づいて事前訓練されている。
モデルは様々な下流タスクに基づいて評価され、ゼロショットシナリオにおける構造的および文脈的問題を解く強力な能力を示す。
論文 参考訳(メタデータ) (2024-07-12T22:23:51Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Self-Explaining Structures Improve NLP Models [25.292847674586614]
我々は,NLPにおけるディープラーニングモデルのための,シンプルで汎用的で効果的な自己説明フレームワークを提案する。
自己説明的特徴のニューラルモデルでは、自己説明的な性質がなければ、それよりも優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-12-03T09:32:05Z) - LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular
Supervision for Visual Question Answering [4.602329567377897]
本稿では,視覚的質問応答のための透明なニューラルシンボリック推論フレームワークを提案する。
人間のようにステップバイステップで解決し、各ステップで人間の読みやすい正当性を提供する。
GQAデータセットを用いた実験により、LRTAは最先端モデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-11-21T06:39:42Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。