論文の概要: Task Progressive Curriculum Learning for Robust Visual Question Answering
- arxiv url: http://arxiv.org/abs/2411.17292v1
- Date: Tue, 26 Nov 2024 10:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:34.467012
- Title: Task Progressive Curriculum Learning for Robust Visual Question Answering
- Title(参考訳): 頑健な視覚質問応答のためのタスクプログレッシブカリキュラム学習
- Authors: Ahmed Akl, Abdelwahed Khamis, Zhe Wang, Ali Cheraghian, Sara Khalifa, Kewen Wang,
- Abstract要約: トレーニング戦略をシンプルに拡張することで、堅牢なビジュアル質問回答が実現可能であることを初めて示します。
提案手法であるタスクプログレッシブ・カリキュラム・ラーニング(TPCL)では,主課題であるVQA問題をより小さく,より簡単なタスクに分解する。
標準データセットの包括的評価により,TPCLの有効性を示す。
- 参考スコア(独自算出の注目度): 6.2175732887853545
- License:
- Abstract: Visual Question Answering (VQA) systems are known for their poor performance in out-of-distribution datasets. An issue that was addressed in previous works through ensemble learning, answer re-ranking, or artificially growing the training set. In this work, we show for the first time that robust Visual Question Answering is attainable by simply enhancing the training strategy. Our proposed approach, Task Progressive Curriculum Learning (TPCL), breaks the main VQA problem into smaller, easier tasks based on the question type. Then, it progressively trains the model on a (carefully crafted) sequence of tasks. We further support the method by a novel distributional-based difficulty measurer. Our approach is conceptually simple, model-agnostic, and easy to implement. We demonstrate TPCL effectiveness through a comprehensive evaluation on standard datasets. Without either data augmentation or explicit debiasing mechanism, it achieves state-of-the-art on VQA-CP v2, VQA-CP v1 and VQA v2 datasets. Extensive experiments demonstrate that TPCL outperforms the most competitive robust VQA approaches by more than 5% and 7% on VQA-CP v2 and VQA-CP v1; respectively. TPCL also can boost VQA baseline backbone performance by up to 28.5%.
- Abstract(参考訳): VQA(Visual Question Answering)システムは、アウト・オブ・ディストリビューションデータセットのパフォーマンスが低かったことで知られている。
以前の研究で解決された問題は、アンサンブル学習、回答の再ランク付け、あるいはトレーニングセットを人工的に成長させることである。
本研究は,トレーニング戦略をシンプルに拡張することで,堅牢なビジュアル質問回答が達成できることを初めて示す。
提案手法であるタスクプログレッシブ・カリキュラム・ラーニング(TPCL)では,主VQA問題を質問タイプに基づいて,より小さく,より簡単なタスクに分解する。
そして、そのモデルを(慎重に作られた)タスクのシーケンスで段階的にトレーニングする。
我々は,新しい分布型難易度測定器により,この手法をさらに支援する。
私たちのアプローチは概念的にシンプルで、モデルに依存しず、実装も簡単です。
標準データセットの包括的評価により,TPCLの有効性を示す。
データ拡張も明示的なデバイアス機構も必要とせず、VQA-CP v2、VQA-CP v1、VQA-CP v2データセットの最先端を実現する。
TPCLは、VQA-CP v2およびVQA-CP v1において、最も競争力のあるVQAアプローチを5%以上、7%以上上回っている。
TPCLはまた、VQAベースラインバックボーンのパフォーマンスを最大28.5%向上させることができる。
関連論文リスト
- Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion [6.9879884952138065]
Rank VQAモデルは、Faster R-CNNモデルと、事前訓練されたBERTモデルから得られたリッチセマンティックテキスト特徴を用いて抽出された高品質な視覚特徴を統合する。
回答の相対ランク付けを最適化するためにランキング学習モジュールが組み込まれ、回答精度が向上する。
我々のモデルは、標準VQAデータセットにおける既存の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-14T05:18:43Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Compressing And Debiasing Vision-Language Pre-Trained Models for Visual
Question Answering [25.540831728925557]
本稿では,スパースとロバストワークを探索することにより,視覚言語事前学習モデルを同時に圧縮・デバイアスできるかどうかを検討する。
以上の結果から, 疎水性, 頑健性は, 偏りに満ちた部分と競合することが明らかとなった。
車だ
論文 参考訳(メタデータ) (2022-10-26T08:25:03Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA
Models [45.777326168922635]
本稿では,新たな大規模VQAベンチマークであるAdversarial VQAを紹介する。
非熟練アノテータは比較的容易にSOTA VQAモデルに攻撃できることがわかった。
大規模な事前訓練モデルと敵のトレーニング方法はどちらも、標準的なVQA v2データセットで達成できるものよりもはるかに低いパフォーマンスしか達成できない。
論文 参考訳(メタデータ) (2021-06-01T05:54:41Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。