論文の概要: Disentanglement-Based Equivariant Learning for Compositional VQA
- arxiv url: http://arxiv.org/abs/2606.02168v1
- Date: Mon, 01 Jun 2026 12:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.998102
- Title: Disentanglement-Based Equivariant Learning for Compositional VQA
- Title(参考訳): 合成VQAのための遠方性に基づく等変学習
- Authors: Zhou Du, Zhaoquan Yuan, Xiao Wu, Changsheng Xu,
- Abstract要約: 本稿では,合成VQAのための新しいディスタングルメント・エクイブアリアント学習フレームワークを提案する。
我々は、再エンコードフレームワーク内で視覚的およびテキスト的入力から導かれる概念をアンタングル化するために因果性にインスパイアされた介入を用いる。
- 参考スコア(独自算出の注目度): 51.109034846842405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional visual question answering (VQA) represents a challenging yet fundamental task that requires models to comprehend novel combinations of previously learned concepts. The current methods often overlook the disentanglement of underlying concepts and are restricted in terms of their ability to effectively capture the compositional variation mechanism. Moreover, the state-of-the-art techniques depend on additional clues for training, which is not feasible in real-world VQA scenarios. To address these issues, in this paper, we introduce a novel Disentanglement-based EquivAriant Learning (DEAL) framework for compositional VQA, which is guided exclusively by ground-truth answers. In DEAL, we employ causality-inspired interventions to disentangle concepts derived from visual and textual inputs within a re-encoding framework. Based on the principle of equivariance, we subsequently perform a compositional transformation on the inference input and impose the equivariant constraint on the output to augment the compositional reasoning capacity of the model. Comprehensive experiments conducted on the benchmark CLEVR-CoGenT and GQA-SGL datasets validate the superiority of our proposed DEAL approach over the existing state-of-the-art methods for compositional VQA tasks in both visual and linguistic generalization settings.
- Abstract(参考訳): 構成的視覚的質問応答(VQA)は、以前に学習された概念の新たな組み合わせを理解するためにモデルを必要とする難しいが基本的な課題である。
現在の手法は、しばしば基礎となる概念の絡み合いを見落とし、構成的変動機構を効果的に捉える能力の点で制限されている。
さらに、最先端技術は、実世界のVQAシナリオでは実現不可能な、トレーニングのための追加のヒントに依存する。
これらの問題に対処するために,本論文では,基本的真理解法にのみ導かれる合成VQAのための,分散型EquivAriant Learning (DEAL) フレームワークを提案する。
DEALでは、再エンコードフレームワーク内で視覚的およびテキスト的入力から導かれる概念をアンタングル化するために因果性にインスパイアされた介入を用いる。
等分散の原理に基づいて、推論入力の合成変換を行い、同変制約を出力に課し、モデルの構成的推論能力を増強する。
CLEVR-CoGenTとGQA-SGLのベンチマークで実施された総合的な実験は、視覚的および言語的一般化設定において、既存の合成VQAタスクに対する最先端の手法よりも提案したDEALアプローチの優位性を検証した。
関連論文リスト
- Foundational Question Generation for Video Question Answering via an Embedding-Integrated Approach [0.0]
埋め込み型アプローチ(FIQ)によるビデオ質問に対する基礎的質問生成について紹介する。
FIQは、ビデオコンテンツの基本的な理解を改善し、VQAモデルの推論能力を高めるために設計されたフレームワークである。
SUTD-TrafficQAデータセットの実験結果は、FIQが最先端のパフォーマンスを達成し、既存のベースラインアプローチを超えることを示した。
論文 参考訳(メタデータ) (2025-11-18T13:45:50Z) - Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.82630842681845]
特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文 参考訳(メタデータ) (2024-12-06T18:59:51Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Logical Implications for Visual Question Answering Consistency [2.005299372367689]
本稿では,VQAモデルに広く適用可能な新しい整合損失項を提案する。
本稿では,これらの論理的関係を専用言語モデルを用いて推論し,一貫性損失関数として用いることを提案する。
我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-16T16:00:18Z) - Separating Skills and Concepts for Novel Visual Question Answering [66.46070380927372]
アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-19T18:55:10Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。