論文の概要: Visual Question Answering with Prior Class Semantics
- arxiv url: http://arxiv.org/abs/2005.01239v1
- Date: Mon, 4 May 2020 02:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:20:37.601442
- Title: Visual Question Answering with Prior Class Semantics
- Title(参考訳): 事前クラスセマンティクスを用いた視覚的質問応答
- Authors: Violetta Shevchenko, Damien Teney, Anthony Dick, Anton van den Hengel
- Abstract要約: 候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
- 参考スコア(独自算出の注目度): 50.845003775809836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel mechanism to embed prior knowledge in a model for visual
question answering. The open-set nature of the task is at odds with the
ubiquitous approach of training of a fixed classifier. We show how to exploit
additional information pertaining to the semantics of candidate answers. We
extend the answer prediction process with a regression objective in a semantic
space, in which we project candidate answers using prior knowledge derived from
word embeddings. We perform an extensive study of learned representations with
the GQA dataset, revealing that important semantic information is captured in
the relations between embeddings in the answer space. Our method brings
improvements in consistency and accuracy over a range of question types.
Experiments with novel answers, unseen during training, indicate the method's
potential for open-set prediction.
- Abstract(参考訳): 本稿では,視覚的質問応答モデルに事前知識を組み込む新しいメカニズムを提案する。
タスクのオープンセットの性質は、固定された分類器のトレーニングのユビキタスなアプローチと相反する。
候補回答の意味に関する追加情報をどのように活用するかを示す。
我々は,単語埋め込みから得られた事前知識を用いて解答候補を投影する意味空間において,回帰目標を用いて解答予測プロセスを拡張した。
我々はGQAデータセットを用いて学習表現の広範な研究を行い、回答空間への埋め込みの関係において重要な意味情報が捕捉されることを示した。
本手法は,様々な質問型に対する一貫性と正確性の向上をもたらす。
トレーニング中に見つからない新しい回答を用いた実験は、オープンセット予測の方法の可能性を示している。
関連論文リスト
- Towards Reliable and Factual Response Generation: Detecting Unanswerable
Questions in Information-Seeking Conversations [16.99952884041096]
生成的AIモデルは、そのようなシステムに対するユーザの信頼を損なう可能性のある幻覚の課題に直面します。
本稿では,まずコーパス内の関連するパスを識別し,最後にシステム応答にまとめる2段階のプロセスとして,会話情報探索の問題にアプローチする。
具体的には,文レベル分類器を用いて解答の有無を判定し,これらの予測を文レベルに集約し,最後に最終解答可能性推定値に到達する。
論文 参考訳(メタデータ) (2024-01-21T10:15:36Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Cooperative Learning of Zero-Shot Machine Reading Comprehension [9.868221447090855]
質問生成と回答のための協調的自己学習モデルを提案する。
注釈なしで任意のテキストコーポラで質問生成と回答モデルをトレーニングできます。
私たちのモデルは、標準質問応答ベンチマークで最先端の事前学習された言語モデルよりも優れています。
論文 参考訳(メタデータ) (2021-03-12T18:22:28Z) - Improving Commonsense Question Answering by Graph-based Iterative
Retrieval over Multiple Knowledge Sources [26.256653692882715]
疑問に答えるシステムにおいて、コモンセンスを効果的に活用する方法はまだ検討中である。
本研究では,ConceptNet,Wikipedia,Cambridge Dictionaryを統合した質問応答手法を提案する。
学習済みの言語モデルを用いて、質問を符号化し、知識と選択を検索し、回答の選択を意識した注意機構を提案する。
論文 参考訳(メタデータ) (2020-11-05T08:50:43Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。