Fugu-MT 論文翻訳(概要): CLIP-UP: CLIP-Based Unanswerable Problem Detection for Visual Question Answering

論文の概要: CLIP-UP: CLIP-Based Unanswerable Problem Detection for Visual Question Answering

arxiv url: http://arxiv.org/abs/2501.01371v1
Date: Thu, 02 Jan 2025 17:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:32.302304
Title: CLIP-UP: CLIP-Based Unanswerable Problem Detection for Visual Question Answering
Title（参考訳）: CLIP-UP: Visual Question AnsweringのためのCLIPベースの未解決問題検出
Authors: Ben Vardi, Oron Nir, Ariel Shamir,
Abstract要約: 提案するCLIP-UP: CLIP-based Unanswerable Problem Detection。探索不可能な質問に対する回答を抑える能力を備えたビジョン・ランゲージ・モデル(Vision-Language Models)を装備するための,新しい軽量な手法である。 MM-UPDベンチマークを用いて,複数選択の視覚質問応答における解答不可能性の評価を行う。
参考スコア（独自算出の注目度）: 14.079577086689659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent Vision-Language Models (VLMs) have demonstrated remarkable capabilities in visual understanding and reasoning, and in particular on multiple-choice Visual Question Answering (VQA). Still, these models can make distinctly unnatural errors, for example, providing (wrong) answers to unanswerable VQA questions, such as questions asking about objects that do not appear in the image. To address this issue, we propose CLIP-UP: CLIP-based Unanswerable Problem detection, a novel lightweight method for equipping VLMs with the ability to withhold answers to unanswerable questions. By leveraging CLIP to extract question-image alignment information, CLIP-UP requires only efficient training of a few additional layers, while keeping the original VLMs' weights unchanged. Tested across LLaVA models, CLIP-UP achieves state-of-the-art results on the MM-UPD benchmark for assessing unanswerability in multiple-choice VQA, while preserving the original performance on other tasks.
Abstract（参考訳）: 近年の視覚言語モデル (VLM) は視覚的理解と推論において顕著な能力を示しており、特にVQA (Multi-choice Visual Question Answering) において顕著である。しかしながら、これらのモデルは、例えば、画像に現れないオブジェクトについて質問するなど、解決不可能なVQA質問に対する(間違った)回答を提供するなど、明らかに不自然なエラーを発生させる可能性がある。この問題に対処するため、我々はCLIP-UPを提案する。 CLIPを利用して質問画像アライメント情報を抽出することにより、CLIP-UPは、元のVLMの重量を一定に保ちながら、いくつかの追加レイヤの効率的なトレーニングしか必要としない。 LLaVAモデルでテストされたCLIP-UPは、MM-UPDベンチマークで、複数の選択VQAにおける未解決性を評価しながら、他のタスクにおける元のパフォーマンスを保ちながら、最先端の結果を達成する。

関連論文リスト

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction [24.029138898778626]
nlg2choiceは、最小限の制約を持つタスクに対してMLLMにオープンな質問をする単純な2段階の手法である。我々は、スループットを大幅に向上させるために、早期停止法を用いて、その選択を受ける制約応答の確率を計算する。その結果,分類と検索の点から評価すると,7種類の細粒度視覚データセットに対して改善が見られた。
論文参考訳（メタデータ） (2025-10-16T17:04:25Z)
Instruction-tuned Self-Questioning Framework for Multimodal Reasoning [25.286098876478928]
SQ-InstructBLIPは,画像認識による情報サブクェリとサブサブ問合せを反復的に生成することで,推論性能を向上させる。提案手法は,VQAタスクを解く際に,生成したサブクエストを付加情報として用いたSQ-InstructBLIPが,従来よりも高精度な推論を行うことを示す。
論文参考訳（メタデータ） (2025-09-25T14:45:06Z)
Ask and Remember: A Questions-Only Replay Strategy for Continual Visual Question Answering [17.369734751262126]
VQACL(Continuous Learning in Visual Question Answering)は、学習前の知識(安定性)を保ちながら、新しい視覚言語スキル(塑性)を取得するモデルを必要とする。既存のメソッドは、主に単調な設定のために設計されており、この二重要求に対処するのに不足することが多い。 Intention Distillation (QUAD) を用いたQUestion-only replay(QUestion-only replay with Attention Distillation)を提案する。
論文参考訳（メタデータ） (2025-02-06T19:37:43Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
VQA4CIR: Boosting Composed Image Retrieval with Visual Question Answering [68.47402250389685]
この作業は、CIRのパフォーマンスを高めるために、Visual Question Answering(VQA)の視点を提供する。結果として生じるVQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
論文参考訳（メタデータ） (2023-12-19T15:56:08Z)
Enhancing Answer Selection in Community Question Answering with Pre-trained and Large Language Models [0.9065034043031668]
まず,質問応答型クロスアテンションネットワーク(QAN)を提案する。次に,大規模言語モデル(LLM)を用いて,知識拡張による回答選択を行う。実験の結果、QANモデルが2つのデータセット、SemEval2015とSemEval 2017の最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2023-11-29T10:24:50Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文参考訳（メタデータ） (2023-10-09T16:57:57Z)
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering [7.640416680391081]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文参考訳（メタデータ） (2023-06-16T17:47:57Z)
SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。 SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文参考訳（メタデータ） (2023-04-04T09:05:11Z)
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文参考訳（メタデータ） (2022-12-21T08:39:36Z)
Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文参考訳（メタデータ） (2022-04-02T15:09:16Z)
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文参考訳（メタデータ） (2020-10-30T00:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。