Fugu-MT 論文翻訳(概要): Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning

論文の概要: Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning

arxiv url: http://arxiv.org/abs/2212.00259v1
Date: Thu, 1 Dec 2022 03:53:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 14:54:48.663429
Title: Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning
Title（参考訳）: super-clevr:ビジュアル推論におけるドメインロバストネスを診断する仮想ベンチマーク
Authors: Zhuowan Li (1), Xingrui Wang (2), Elias Stengel-Eskin (1), Adam Kortylewski (3 and 4), Wufei Ma (1), Benjamin Van Durme (1), Alan Yuille (1) ((1) Johns Hopkins University, (2) University of Southern California, (3) Max Planck Institute for Informatics, (4) University of Freiburg)
Abstract要約: VQAドメインシフトの異なる要因を分離可能な仮想ベンチマークであるSuper-CLEVRを導入する。視覚的複雑性、質問冗長性、概念分布、概念構成性という4つの要因が考慮されている。制御されたデータを用いて,テストデータがトレーニングデータと異なる状況下で,Super-CLEVRによりVQAメソッドをテストすることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Question Answering (VQA) models often perform poorly on out-of-distribution data and struggle on domain generalization. Due to the multi-modal nature of this task, multiple factors of variation are intertwined, making generalization difficult to analyze. This motivates us to introduce a virtual benchmark, Super-CLEVR, where different factors in VQA domain shifts can be isolated in order that their effects can be studied independently. Four factors are considered: visual complexity, question redundancy, concept distribution and concept compositionality. With controllably generated data, Super-CLEVR enables us to test VQA methods in situations where the test data differs from the training data along each of these axes. We study four existing methods, including two neural symbolic methods NSCL and NSVQA, and two non-symbolic methods FiLM and mDETR; and our proposed method, probabilistic NSVQA (P-NSVQA), which extends NSVQA with uncertainty reasoning. P-NSVQA outperforms other methods on three of the four domain shift factors. Our results suggest that disentangling reasoning and perception, combined with probabilistic uncertainty, form a strong VQA model that is more robust to domain shifts. The dataset and code are released at https://github.com/Lizw14/Super-CLEVR.
Abstract（参考訳）: ビジュアル質問応答(vqa)モデルは、しばしば分散データで性能が悪く、ドメインの一般化に苦しむ。このタスクのマルチモーダル性のため、変動の複数の要因が絡み合っており、一般化は分析が困難である。これにより、VQAドメインシフトの異なる要因を分離して、その効果を独立して研究できる仮想ベンチマークであるSuper-CLEVRを導入することができる。視覚の複雑さ、質問の冗長性、概念分布、概念構成性である。制御されたデータにより、テストデータが各軸に沿ったトレーニングデータと異なる状況下で、Super-CLEVRはVQAメソッドをテストすることができる。 2つのニューラルシンボリックメソッドNSCLとNSVQAと2つの非シンボリックメソッドFiLMとmDETRを含む4つの既存手法と、不確実な推論でNSVQAを拡張する確率的NSVQA(P-NSVQA)を提案する。 P-NSVQAは4つの領域シフト因子のうち3つで他の手法より優れている。この結果から,確率的不確実性と相まって,ドメインシフトに対してより堅牢な強いVQAモデルを形成することが示唆された。データセットとコードはhttps://github.com/lizw14/super-clevrでリリースされる。

関連論文リスト

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering [21.142461103887857]
VQAタスクの堅牢な微調整を評価するために,新しいベンチマークFRAMES-VQA(Fine-Tuning Robustness across Multi-Modal Shifts in VQA)を提案する。 VQAv2、IV-VQA、VQA-CP、OK-VQAなど、既存のVQAベンチマークを10種類使用し、それをID、近距離OODデータセットに分類する。
論文参考訳（メタデータ） (2025-05-27T20:44:44Z)
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning [31.61978841892981]
本稿では,2つの段階で構築された新しいデータセットFortisAVQAを紹介する。第1段階はより多様性のあるテスト空間を拡大し、第2段階は洗練された堅牢性評価を可能にする。我々のアーキテクチャはFortisAVQAの最先端性能を実現し、7.81%の顕著な改善を実現している。
論文参考訳（メタデータ） (2025-04-01T07:23:50Z)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳（メタデータ） (2025-03-13T17:59:01Z)
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison [0.0]
VQA(Visual Question Answering)は、コンピュータビジョンと自然言語処理の交差において重要なタスクとして登場した。本稿では,従来のVQAデータセット,ベースラインモデル,手法,および5つの高度なVQAモデルの比較研究について述べる。
論文参考訳（メタデータ） (2025-02-20T18:45:00Z)
SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文参考訳（メタデータ） (2024-11-29T13:22:52Z)
Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering [19.351516992903697]
EmphMixture of Rationales (MoR) は、ゼロショット視覚的質問応答のための複数の論理を混合する新しいマルチモーダル推論手法である。 MoRはNLVR2では12.43%の精度向上、OKVQA-Sでは2.45%の精度向上を実現している。
論文参考訳（メタデータ） (2024-06-03T15:04:47Z)
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文参考訳（メタデータ） (2024-03-18T03:17:08Z)
VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization [15.554325659263316]
視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。 VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
論文参考訳（メタデータ） (2023-11-01T19:43:56Z)
Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。モデル記述分解の素早い適用は性能を損なう可能性があることを示す。モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文参考訳（メタデータ） (2023-10-25T23:23:57Z)
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文参考訳（メタデータ） (2023-05-24T08:33:15Z)
From Easy to Hard: Learning Language-guided Curriculum for Visual Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。 RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。 RSVQAタスクでは、各画像の難易度が明らかに異なる。言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文参考訳（メタデータ） (2022-05-06T11:37:00Z)
Domain-robust VQA with diverse datasets and methods but no target labels [34.331228652254566]
VQAのドメイン適応は、さらなる複雑さのためにオブジェクト認識の適応とは異なる。これらの課題に取り組むために、まず一般的なVQAデータセット間のドメインシフトを定量化します。また,画像領域と質問領域の合成シフトを別々に構築する。
論文参考訳（メタデータ） (2021-03-29T22:24:50Z)
Counterfactual Variable Control for Robust and Interpretable Question Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-12T10:09:05Z)
Regularizing Attention Networks for Anomaly Detection in Visual Question Answering [10.971443035470488]
最先端VQAモデルのロバスト性を5つの異なる異常に評価する。入力画像と質問間の推論の信頼度を利用した注意に基づく手法を提案する。注意ネットワークの最大エントロピー正規化は、注意に基づく異常検出を大幅に改善できることを示す。
論文参考訳（メタデータ） (2020-09-21T17:47:49Z)
Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文参考訳（メタデータ） (2020-04-30T09:10:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。