Fugu-MT 論文翻訳(概要): Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models

論文の概要: Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models

arxiv url: http://arxiv.org/abs/2310.05861v1
Date: Mon, 9 Oct 2023 16:57:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 00:18:01.820008
Title: Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
Title（参考訳）: Rephrase, Augment, Reason:視覚言語モデルに対する質問の視覚的グラウンド
Authors: Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
Abstract要約: 視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。 VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
参考スコア（独自算出の注目度）: 66.37493420911979
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An increasing number of vision-language tasks can be handled with little to no training, i.e., in a zero and few-shot manner, by marrying large language models (LLMs) to vision encoders, resulting in large vision-language models (LVLMs). While this has huge upsides, such as not requiring training data or custom architectures, how an input is presented to a LVLM can have a major impact on zero-shot model performance. In particular, inputs phrased in an underspecified way can result in incorrect answers due to factors like missing visual information, complex implicit reasoning, or linguistic ambiguity. Therefore, adding visually grounded information to the input as a preemptive clarification should improve model performance by reducing underspecification, e.g., by localizing objects and disambiguating references. Similarly, in the VQA setting, changing the way questions are framed can make them easier for models to answer. To this end, we present Rephrase, Augment and Reason (RepARe), a gradient-free framework that extracts salient details about the image using the underlying LVLM as a captioner and reasoner, in order to propose modifications to the original question. We then use the LVLM's confidence over a generated answer as an unsupervised scoring function to select the rephrased question most likely to improve zero-shot performance. Focusing on two visual question answering tasks, we show that RepARe can result in a 3.85% (absolute) increase in zero-shot performance on VQAv2 and a 6.41% point increase on A-OKVQA. Additionally, we find that using gold answers for oracle question candidate selection achieves a substantial gain in VQA accuracy by up to 14.41%. Through extensive analysis, we demonstrate that outputs from RepARe increase syntactic complexity, and effectively utilize vision-language interaction and the frozen language model in LVLMs.
Abstract（参考訳）: 視覚言語タスクの数が増加するにつれて、視覚エンコーダに大型言語モデル(LLM)を組み込むことで、ゼロまたは少数ショットでトレーニングを行なわずに扱えるようになり、結果として大きな視覚言語モデル(LVLM)となる。これはトレーニングデータやカスタムアーキテクチャを必要としないなど、大きな利点があるが、lvlmへのインプットの提示方法がゼロショットモデルのパフォーマンスに大きな影響を与える可能性がある。特に、不特定な方法で表現された入力は、視覚情報の欠如、複雑な暗黙の推論、言語的曖昧さなどの要因によって、誤った答えをもたらす可能性がある。したがって、プリエンプティブな明確化として入力に視覚的な接地情報を加えることで、オブジェクトのローカライズや参照の曖昧化などにより、下限指定を減らすことにより、モデルの性能を向上させることができる。同様に、VQA設定では、質問のフレーム化方法を変更することで、モデルが簡単に答えられるようになる。この目的のために,LVLMをキャプタと推論器として用いた画像の健全な詳細を抽出する勾配のないフレームワークであるRephrase, Augment and Reason(RepARe)を紹介し,元の質問に対する修正を提案する。次に、生成した回答に対するLVLMの信頼度を教師なしスコアリング関数として使用し、ゼロショット性能を改善する可能性が最も高いリフレサ付き質問を選択する。 2つの視覚的質問応答タスクに着目して、RepAReはVQAv2のゼロショット性能が3.85%向上し、A-OKVQAの6.41%向上することを示す。さらに、オラクル質問候補の選択に金の答えを使うことで、VQAの精度が最大14.41%向上することがわかった。本稿では,RepAReからの出力が構文的複雑性を増大させ,LVLMにおける視覚-言語相互作用と凍結言語モデルの有効性を実証する。

関連論文リスト

Where do Large Vision-Language Models Look at when Answering Questions? [35.39354978511109]
LVLM(Large Vision-Language Models)は、視覚言語理解と推論タスクにおいて有望な性能を示す。我々は既存のヒートマップ可視化手法を拡張し、オープンな視覚的質問応答のためのLVLMをサポートする。我々は,視覚情報を必要とするベンチマークにおいて,最先端のLVLMを包括的に分析する。
論文参考訳（メタデータ） (2025-03-18T04:34:43Z)
Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:33:31Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-20T08:23:39Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs [12.598351373932234]
MLLMは画像の細部だけでなく細部までも知覚できるかどうかを検討する。視覚的質問に対する回答におけるゼロショット精度は,視覚的対象の大きさに非常に敏感であることを示す。 MLLMのゼロショット性能を改善するために,5つの視覚的トリミング法を提案する。
論文参考訳（メタデータ） (2023-10-24T17:48:04Z)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-07-03T09:03:12Z)
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering [7.640416680391081]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文参考訳（メタデータ） (2023-06-16T17:47:57Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文参考訳（メタデータ） (2022-12-21T08:39:36Z)
A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文参考訳（メタデータ） (2021-10-16T06:07:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。