論文の概要: Visual Question Generation in Bengali
- arxiv url: http://arxiv.org/abs/2310.08187v1
- Date: Thu, 12 Oct 2023 10:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:48:52.336597
- Title: Visual Question Generation in Bengali
- Title(参考訳): ベンガルにおける視覚質問生成
- Authors: Mahmud Hasan, Labiba Islam, Jannatul Ferdous Ruma, Tasmiah Tahsin
Mayeesha, Rashedur M. Rahman
- Abstract要約: 我々は,ベンガル語で画像が与えられたときに質問を生成するトランスフォーマーベースのエンコーダデコーダアーキテクチャを開発した。
ベンガル語で視覚質問生成タスクのためのアートモデルの最初の状態を確立する。
その結果,画像キャットモデルではBLUE-1スコアが33.12,BLEU-3スコアが7.56であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of Visual Question Generation (VQG) is to generate human-like
questions relevant to the given image. As VQG is an emerging research field,
existing works tend to focus only on resource-rich language such as English due
to the availability of datasets. In this paper, we propose the first Bengali
Visual Question Generation task and develop a novel transformer-based
encoder-decoder architecture that generates questions in Bengali when given an
image. We propose multiple variants of models - (i) image-only: baseline model
of generating questions from images without additional information, (ii)
image-category and image-answer-category: guided VQG where we condition the
model to generate questions based on the answer and the category of expected
question. These models are trained and evaluated on the translated VQAv2.0
dataset. Our quantitative and qualitative results establish the first state of
the art models for VQG task in Bengali and demonstrate that our models are
capable of generating grammatically correct and relevant questions. Our
quantitative results show that our image-cat model achieves a BLUE-1 score of
33.12 and BLEU-3 score of 7.56 which is the highest of the other two variants.
We also perform a human evaluation to assess the quality of the generation
tasks. Human evaluation suggests that image-cat model is capable of generating
goal-driven and attribute-specific questions and also stays relevant to the
corresponding image.
- Abstract(参考訳): 視覚質問生成(vqg)のタスクは、与えられた画像に関連する人間的な質問を生成することである。
VQGは新興の研究分野であるため、既存の研究はデータセットが利用可能なため、英語のようなリソースに富む言語にのみ焦点をあてる傾向にある。
本稿では,ベンガリにおける最初の視覚質問生成タスクを提案し,画像の付与時に質問を生成するトランスフォーマーベースのエンコーダデコーダアーキテクチャを提案する。
モデルの複数の変種を提案する。
(i)画像のみ:追加情報なしで画像から質問を生成するベースラインモデル。
(II)画像カテゴリーと画像回答カテゴリ:VQGを誘導し,回答と期待された質問のカテゴリに基づいて質問を生成する。
これらのモデルは、翻訳されたVQAv2.0データセットに基づいてトレーニングされ、評価される。
ベンガル語におけるVQGタスクのためのアートモデルの最初の状態を確立し、我々のモデルが文法的に正確で関連する質問を生成できることを実証した。
その結果,画像キャットモデルでは,BLUE-1スコアが33.12,BLEU-3スコアが7.56となり,他の2変種の中で最も高い結果が得られた。
また、生成タスクの品質を評価するための人的評価も行います。
人的評価は、イメージキャットモデルは、ゴール駆動および属性固有の質問を生成でき、対応する画像に関連づけられることを示唆する。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Localized Questions in Medical Visual Question Answering [2.005299372367689]
VQA(Visual Question Answering)モデルは、与えられた画像に関する自然言語の質問に答えることを目的としている。
既存の医療用VQAモデルは、画像全体を参照する質問に答えることに重点を置いている。
本稿では、画像領域に関する疑問に答えられるモデルを開発することにより、この限界に対処する医療用VQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:47:18Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - Guiding Visual Question Generation [40.56637275354495]
従来の視覚質問生成(VQG)では、ほとんどの画像は、質問を生成できる複数の概念を持っている。
本稿では,カテゴリ情報に基づいて質問生成を行うVQGの変種である案内視覚質問生成について述べる。
論文 参考訳(メタデータ) (2021-10-15T17:38:08Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - Simplifying Paragraph-level Question Generation via Transformer Language
Models [0.0]
質問生成(QG)は、ある入力テキストに対応する質問をモデルに訓練する自然言語生成タスクである。
1つのTransformerベースの一方向言語モデルで、トランスファーラーニングを利用して高品質な質問を生成することができる。
我々のQGモデルは、GPT-2 Smallから微調整され、SQuADデータセット上のいくつかの段落レベルのQGベースラインを0.95 METEORポイントで上回る。
論文 参考訳(メタデータ) (2020-05-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。