論文の概要: Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem
- arxiv url: http://arxiv.org/abs/2207.11850v1
- Date: Sun, 24 Jul 2022 23:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:50:12.879196
- Title: Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem
- Title(参考訳): 言語課題克服のための視覚摂動認識協調学習
- Authors: Yudong Han, Liqiang Nie, Jianhua Yin, Jianlong Wu, Yan Yan
- Abstract要約: 本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
- 参考スコア(独自算出の注目度): 60.0878532426877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several studies have recently pointed that existing Visual Question Answering
(VQA) models heavily suffer from the language prior problem, which refers to
capturing superficial statistical correlations between the question type and
the answer whereas ignoring the image contents. Numerous efforts have been
dedicated to strengthen the image dependency by creating the delicate models or
introducing the extra visual annotations. However, these methods cannot
sufficiently explore how the visual cues explicitly affect the learned answer
representation, which is vital for language reliance alleviation. Moreover,
they generally emphasize the class-level discrimination of the learned answer
representation, which overlooks the more fine-grained instance-level patterns
and demands further optimization. In this paper, we propose a novel
collaborative learning scheme from the viewpoint of visual perturbation
calibration, which can better investigate the fine-grained visual effects and
mitigate the language prior problem by learning the instance-level
characteristics. Specifically, we devise a visual controller to construct two
sorts of curated images with different perturbation extents, based on which the
collaborative learning of intra-instance invariance and inter-instance
discrimination is implemented by two well-designed discriminators. Besides, we
implement the information bottleneck modulator on latent space for further bias
alleviation and representation calibration. We impose our visual
perturbation-aware framework to three orthodox baselines and the experimental
results on two diagnostic VQA-CP benchmark datasets evidently demonstrate its
effectiveness. In addition, we also justify its robustness on the balanced VQA
benchmark.
- Abstract(参考訳): 近年,既存の視覚質問回答(VQA, Visual Question Answering, VQA, VQA)モデルでは,画像内容を無視しながら,質問タイプと回答間の表面的統計的相関を捉えることが指摘されている。
繊細なモデルを作成したり、余分なビジュアルアノテーションを導入することで、画像依存性を強化するために多くの努力がなされている。
しかし、これらの手法は、言語依存の緩和に不可欠である学習された回答表現に視覚的手がかりがどう影響するかを十分に調べることができない。
さらに、彼らは一般的に、よりきめ細かいインスタンスレベルのパターンを見落とし、さらなる最適化を要求する、学習された回答表現のクラスレベルの識別を強調している。
本稿では,視覚的摂動校正の観点から新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案し、よく設計された2つの識別器を用いて、インスタンス内不変性とインスタンス間識別の協調学習を行う。
また,情報ボトルネック変調器を潜在空間に実装し,さらにバイアス軽減と表現校正を行う。
3つの正統派ベースラインに視覚摂動認識フレームワークを付加し、2つの診断VQA-CPベンチマークデータセットによる実験結果から,その効果が明らかとなった。
さらに、バランスの取れたVQAベンチマークの堅牢性も正当化します。
関連論文リスト
- Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Focalized Contrastive View-invariant Learning for Self-supervised
Skeleton-based Action Recognition [16.412306012741354]
本稿では,FoCoViL(Focalized Contrastive View-invariant Learning)という自己教師型フレームワークを提案する。
FoCoViLは、視点が粗い整列された表現空間上のビュー固有情報を著しく抑制する。
アクションと共通のビュー不変プロパティを関連付け、異種プロパティを同時に分離する。
論文 参考訳(メタデータ) (2023-04-03T10:12:30Z) - Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:14:22Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。