論文の概要: Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language
- arxiv url: http://arxiv.org/abs/2311.05043v1
- Date: Wed, 8 Nov 2023 22:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:46:57.803511
- Title: Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language
- Title(参考訳): VQAモデルにおける注意パターンの自然言語へのゼロショット翻訳
- Authors: Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata
- Abstract要約: ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
- 参考スコア(独自算出の注目度): 65.94419474119162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Converting a model's internals to text can yield human-understandable
insights about the model. Inspired by the recent success of training-free
approaches for image captioning, we propose ZS-A2T, a zero-shot framework that
translates the transformer attention of a given model into natural language
without requiring any training. We consider this in the context of Visual
Question Answering (VQA). ZS-A2T builds on a pre-trained large language model
(LLM), which receives a task prompt, question, and predicted answer, as inputs.
The LLM is guided to select tokens which describe the regions in the input
image that the VQA model attended to. Crucially, we determine this similarity
by exploiting the text-image matching capabilities of the underlying VQA model.
Our framework does not require any training and allows the drop-in replacement
of different guiding sources (e.g. attribution instead of attention maps), or
language models. We evaluate this novel task on textual explanation datasets
for VQA, giving state-of-the-art performances for the zero-shot setting on
GQA-REX and VQA-X. Our code is available at:
https://github.com/ExplainableML/ZS-A2T.
- Abstract(参考訳): モデルの内部をテキストに変換することで、モデルに関する人間に理解可能な洞察が得られる。
画像キャプションのためのトレーニングフリーアプローチの成功に触発されて,与えられたモデルのトランスフォーマー注意を,トレーニングを必要とせずに自然言語に変換するゼロショットフレームワークであるzs-a2tを提案する。
我々はこれを視覚質問応答(VQA)の文脈で考える。
ZS-A2Tは事前訓練された大規模言語モデル(LLM)上に構築され、タスクプロンプト、質問、予測応答を入力として受け取る。
LLMは、VQAモデルが参加する入力画像内の領域を記述するトークンを選択するためにガイドされる。
重要なことは、基礎となるVQAモデルのテキスト画像マッチング機能を利用して、この類似性を決定する。
私たちのフレームワークはトレーニングを必要とせず、さまざまなガイドソース(アトリビューションではなくアトリビューションなど)や言語モデルをドロップインで置き換えることを可能にします。
GQA-REX と VQA-X のゼロショット設定に最先端の性能を与えるため,本課題をVQA のテキスト説明データセット上で評価する。
私たちのコードは、https://github.com/explainableml/zs-a2tで利用可能です。
関連論文リスト
- VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF [0.0]
本稿では,言語モデルのテキスト生成を望ましい振る舞いに向けるという課題に対処する。
我々は、ゼロショット方式で批判報酬モデルとして、別の命令調整言語モデルを提案する。
論文 参考訳(メタデータ) (2023-08-11T20:59:31Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Overcoming Language Priors in Visual Question Answering via
Distinguishing Superficially Similar Instances [17.637150597493463]
本稿では,VQAモデルに対して,仮想的に類似したインスタンスの区別を明示的に促す新しいトレーニングフレームワークを提案する。
我々は、解空間におけるインスタンスとそれに対応するモジュール間の距離を増やすために、提案された区別モジュールを利用する。
実験の結果,VQA-CP v2の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-09-18T10:30:44Z) - MUST-VQA: MUltilingual Scene-text VQA [7.687215328455748]
STVQA(Scene Text Visual Question Answering)の課題について考察する。
STVQAタスクに多言語モデルを適用することの有効性を示す。
論文 参考訳(メタデータ) (2022-09-14T15:37:56Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Captioning for Effective Use of Language Models in Knowledge-Based
Visual Question Answering [17.51860125438028]
本稿では,画像と事前学習言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。
外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像-テキスト)モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-09-15T14:11:29Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。