論文の概要: Modular Visual Question Answering via Code Generation
- arxiv url: http://arxiv.org/abs/2306.05392v1
- Date: Thu, 8 Jun 2023 17:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:09:16.204830
- Title: Modular Visual Question Answering via Code Generation
- Title(参考訳): コード生成によるモジュール型視覚質問応答
- Authors: Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin
Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein
- Abstract要約: モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。
提案手法では、事前学習言語モデル(LM)、画像キャプチャペアで事前学習した視覚モデル、コンテキスト内学習に使用する50のVQA例など、追加のトレーニングは不要である。
コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
- 参考スコア(独自算出の注目度): 134.59005611826777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework that formulates visual question answering as modular
code generation. In contrast to prior work on modular approaches to VQA, our
approach requires no additional training and relies on pre-trained language
models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA
examples used for in-context learning. The generated Python programs invoke and
compose the outputs of the visual models using arithmetic and conditional
logic. Our approach improves accuracy on the COVR dataset by at least 3% and on
the GQA dataset by roughly 2% compared to the few-shot baseline that does not
employ code generation.
- Abstract(参考訳): モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。
VQAのモジュラーアプローチに対する以前の研究とは対照的に、我々のアプローチは追加のトレーニングを必要とせず、事前訓練された言語モデル(LM)、画像キャプションペアで事前訓練された視覚モデル、50のVQA例に依存している。
生成されたPythonプログラムは、算術と条件論理を用いて視覚モデルの出力を呼び出し、構成する。
コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
関連論文リスト
- Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - SparrowVQE: Visual Question Explanation for Course Content Understanding [12.926309478839652]
本稿では、視覚的質問説明(VQE)を導入し、VQAの詳細な説明を提供する能力を高める。
我々は,マルチモーダル・プレトレーニング,インストラクション・チューニング,ドメインファインチューニングという3段階のトレーニング機構でモデルを訓練した。
実験結果から,我々のSparrowVQEは,開発したMLVQEデータセットの性能向上と,他の5つのベンチマークVQAデータセットの最先端メソッドのパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2024-11-12T03:25:33Z) - Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering [12.399738382728653]
視覚的質問応答(VQA)とは、視覚的な入力に基づいて、自然言語の質問に対して正確な回答を提供するタスクである。
本稿ではPVQAモデルのための新しいプロンプトフレームワークであるPraamidCoderを紹介する。
我々の手法は最先端のPVQAモデルと比較して、GQAデータセットで少なくとも0.5%、VQAv2データセットで1.4%、NLVR2データセットで2.9%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-30T05:36:43Z) - ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search [8.700556381819267]
本稿では,StackOverflowコミュニティから抽出した大規模プログラミング質問応答データセットProCQAを紹介する。
そこで本研究では,既存の言語モデルのテキストとコード表現のアライメントを改善するために,モダリティに依存しないコントラスト付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T12:34:33Z) - Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-15T07:24:13Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Tackling VQA with Pretrained Foundation Models without Further Training [0.0]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。
これらのLCMの能力により、研究者は視覚的質問回答(VQA)の使用方法を模索している。
本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
論文 参考訳(メタデータ) (2023-09-27T08:35:24Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。