論文の概要: Deep Bayesian Network for Visual Question Generation
- arxiv url: http://arxiv.org/abs/2001.08779v1
- Date: Thu, 23 Jan 2020 19:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 09:53:55.675317
- Title: Deep Bayesian Network for Visual Question Generation
- Title(参考訳): ビジュアル質問生成のためのディープベイズネットワーク
- Authors: Badri N. Patro, Vinod K. Kurmi, Sandeep Kumar, and Vinay P. Namboodiri
- Abstract要約: 画像は、場所、キャプション、タグなどの複数の視覚的および言語的手がかりを持つことができる。
本稿では,これらの手法を組み合わせて自然問題を生成する,原理的ベイズ学習フレームワークを提案する。
結果は、人間の研究によって検証された自然問題と顕著な類似性を示している。
- 参考スコア(独自算出の注目度): 23.275604179401522
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating natural questions from an image is a semantic task that requires
using vision and language modalities to learn multimodal representations.
Images can have multiple visual and language cues such as places, captions, and
tags. In this paper, we propose a principled deep Bayesian learning framework
that combines these cues to produce natural questions. We observe that with the
addition of more cues and by minimizing uncertainty in the among cues, the
Bayesian network becomes more confident. We propose a Minimizing Uncertainty of
Mixture of Cues (MUMC), that minimizes uncertainty present in a mixture of cues
experts for generating probabilistic questions. This is a Bayesian framework
and the results show a remarkable similarity to natural questions as validated
by a human study. We observe that with the addition of more cues and by
minimizing uncertainty among the cues, the Bayesian framework becomes more
confident. Ablation studies of our model indicate that a subset of cues is
inferior at this task and hence the principled fusion of cues is preferred.
Further, we observe that the proposed approach substantially improves over
state-of-the-art benchmarks on the quantitative metrics (BLEU-n, METEOR, ROUGE,
and CIDEr). Here we provide project link for Deep Bayesian VQG
\url{https://delta-lab-iitk.github.io/BVQG/}
- Abstract(参考訳): 画像から自然の質問を生成することは、マルチモーダル表現を学習するために視覚と言語モダリティを使用する必要のある意味的なタスクである。
画像は、場所、キャプション、タグなどの複数の視覚的および言語的手がかりを持つことができる。
本稿では,これらの手法を組み合わせて自然問題を生成する,原理的ベイズ学習フレームワークを提案する。
我々は,より多くの手がかりを追加し,その間における不確実性を最小限にすることで,ベイズネットワークがより自信を持つようになることを観察する。
本稿では,確率論的質問を生成するために,キューの専門家の混在する不確実性を最小限に抑える,キューの混在の最小化不確実性(MUMC)を提案する。
これはベイズ的枠組みであり、結果は人間の研究によって検証された自然問題と顕著な類似性を示している。
より多くの手がかりが加わり、キュー間の不確実性を最小化することにより、ベイズ的枠組みはより自信を増す。
本モデルにおけるアブレーション研究は,cuesのサブセットが本課題において劣っていることを示すため,cuesの原理的融合が好ましい。
さらに,提案手法は定量的指標(BLEU-n, METEOR, ROUGE, CIDEr)の最先端ベンチマークを大幅に改善する。
ここでは、Deep Bayesian VQG \url{https://delta-lab-iitk.github.io/BVQG/} のプロジェクトリンクを提供する。
関連論文リスト
- Probabilistic Language-Image Pre-Training [40.52631899695682]
ProLIP(Probabilistic Language- Image Pre-Training)は,10億規模の画像テキストデータセット上に事前トレーニングされた最初の確率的VLMである。
ProLIPは、余分なパラメータなしで「不確実性トークン」によって不確実性を効率的に推定する。
また,画像とテキストのペア間の分布的包摂関係と,原文とマスクの入力の関係を強制する新たな包摂損失も導入する。
論文 参考訳(メタデータ) (2024-10-24T15:42:25Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Bayesian Deep Learning for Affordance Segmentation in images [3.15834651147911]
本稿では,画像の空き地を検出するための新しいベイズディープネットワークを提案する。
空間レベルでの動脈およびてんかんの分布を定量化する。
その結果,決定論的ネットワークの最先端性が向上した。
論文 参考訳(メタデータ) (2023-03-02T00:01:13Z) - Understanding Approximation for Bayesian Inference in Neural Networks [7.081604594416339]
ベイズニューラルネットワークにおける近似推論について検討する。
近似後部の期待効用は推論品質を測定することができる。
継続的かつ活発な学習セットは、後部品質とは無関係な課題を引き起こします。
論文 参考訳(メタデータ) (2022-11-11T11:31:13Z) - GFlowOut: Dropout with Generative Flow Networks [76.59535235717631]
モンテカルロ・ドロップアウトは近似推論の比較的安価な方法として広く利用されている。
最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。
GFlowOutleveragesは、最近提案されたジェネレーティブフローネットワーク(GFlowNets)の確率的フレームワークを使用して、ドロップアウトマスク上の後部分布を学習する。
論文 参考訳(メタデータ) (2022-10-24T03:00:01Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。