論文の概要: K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition
- arxiv url: http://arxiv.org/abs/2203.07890v1
- Date: Tue, 15 Mar 2022 13:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:57:24.737312
- Title: K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition
- Title(参考訳): k-vqg:コモンセンス獲得のための知識認識ビジュアル質問生成
- Authors: Kohei Uehara, Tatsuya Harada
- Abstract要約: K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
- 参考スコア(独自算出の注目度): 64.55573343404572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Generation (VQG) is a task to generate questions from images.
When humans ask questions about an image, their goal is often to acquire some
new knowledge. However, existing studies on VQG have mainly addressed question
generation from answers or question categories, overlooking the objectives of
knowledge acquisition. To introduce a knowledge acquisition perspective into
VQG, we constructed a novel knowledge-aware VQG dataset called K-VQG. This is
the first large, humanly annotated dataset in which questions regarding images
are tied to structured knowledge. We also developed a new VQG model that can
encode and use knowledge as the target for a question. The experiment results
show that our model outperforms existing models on the K-VQG dataset.
- Abstract(参考訳): 視覚質問生成(VQG)は、画像から質問を生成するタスクである。
人間が画像について質問すると、その目標は、しばしば新しい知識を取得することである。
しかしながら、VQGに関する既存の研究は、主に知識獲得の目的を見越して、回答や質問カテゴリからの質問生成に対処してきた。
知識獲得の視点をVQGに導入するため,我々はK-VQGという新しい知識認識型VQGデータセットを構築した。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問のターゲットとして知識をエンコードし,使用することができる新しいVQGモデルを開発した。
実験の結果,本モデルはk-vqgデータセットの既存モデルよりも優れていた。
関連論文リスト
- ConVQG: Contrastive Visual Question Generation with Multimodal Guidance [20.009626292937995]
本研究では,コントラスト的視覚質問生成(ConVQG)を提案し,画像的,テキスト的,知識に富んだ質問を生成する。
知識認識と標準VQGベンチマークの実験は、ConVQGが最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-20T09:20:30Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.639880603821446]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。
まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクを数ショットで解決する。
PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督された状態を超越している。
論文 参考訳(メタデータ) (2021-09-10T17:51:06Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing [20.117014315684287]
我々は、知識ギャップ(KG)の分類を用いて、質問を1つまたは複数のタイプのKGでタグ付けする。
次に,各KGに対する質問の分布のスキューについて検討する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
論文 参考訳(メタデータ) (2020-04-08T00:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。