論文の概要: Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2406.01402v1
- Date: Mon, 3 Jun 2024 15:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:39:57.214133
- Title: Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering
- Title(参考訳): Rationaleの混合:視覚質問応答のためのマルチモーダル推論混合
- Authors: Tao Li, Linjun Shou, Xuejun Liu,
- Abstract要約: EmphMixture of Rationales (MoR) は、ゼロショット視覚的質問応答のための複数の論理を混合する新しいマルチモーダル推論手法である。
MoRはNLVR2では12.43%の精度向上、OKVQA-Sでは2.45%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 19.351516992903697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot visual question answering (VQA) is a challenging task that requires reasoning across modalities. While some existing methods rely on a single rationale within the Chain of Thoughts (CoT) framework, they may fall short of capturing the complexity of the VQA problem. On the other hand, some other methods that use multiple rationales may still suffer from low diversity, poor modality alignment, and inefficient retrieval and fusion. In response to these challenges, we propose \emph{Mixture of Rationales (MoR)}, a novel multi-modal reasoning method that mixes multiple rationales for VQA. MoR uses a single frozen Vision-and-Language Pre-trained Models (VLPM) model to {dynamically generate, retrieve and fuse multi-modal thoughts}. We evaluate MoR on two challenging VQA datasets, i.e. NLVR2 and OKVQA, with two representative backbones OFA and VL-T5. MoR achieves a 12.43\% accuracy improvement on NLVR2, and a 2.45\% accuracy improvement on OKVQA-S( the science and technology category of OKVQA).
- Abstract(参考訳): ゼロショット視覚質問応答(Zero-shot visual question answering, VQA)は、モダリティ間の推論を必要とする課題である。
既存の方法の中には、Chain of Thoughts (CoT)フレームワーク内の1つの理論的根拠に依存しているものもあるが、VQA問題の複雑さを捉えるには不足しているものもある。
一方、複数の有理数を用いる他の方法では、低多様性、モダリティアライメントの低さ、非効率な検索と融合に悩まされている。
これらの課題に対応するために、VQAの複数の論理を混合した新しいマルチモーダル推論法である \emph{Mixture of Rationales (MoR)} を提案する。
MoRは、単一の凍結されたビジョン・アンド・ランゲージ事前訓練モデル(VLPM)モデルを使用して、動的にマルチモーダル思考を生成、検索、融合する。
我々は、NLVR2とOKVQAの2つの挑戦的VQAデータセットに対して、2つの代表的バックボーンOFAとVL-T5でMoRを評価する。
MoR は NLVR2 の 12.43 % の精度向上、OKVQA-S (OKVQA の科学技術カテゴリ) の 2.45 % の精度向上を実現している。
関連論文リスト
- Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual
Reasoning [34.6700781893352]
VQAドメインシフトの異なる要因を分離可能な仮想ベンチマークであるSuper-CLEVRを導入する。
視覚的複雑性、質問冗長性、概念分布、概念構成性という4つの要因が考慮されている。
制御されたデータを用いて,テストデータがトレーニングデータと異なる状況下で,Super-CLEVRによりVQAメソッドをテストすることができる。
論文 参考訳(メタデータ) (2022-12-01T03:53:24Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。