論文の概要: Recent, rapid advancement in visual question answering architecture
- arxiv url: http://arxiv.org/abs/2203.01322v1
- Date: Wed, 2 Mar 2022 03:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 14:39:22.073414
- Title: Recent, rapid advancement in visual question answering architecture
- Title(参考訳): 最近の視覚的質問応答アーキテクチャの急速な進歩
- Authors: Venkat Kodali and Daniel Berleant
- Abstract要約: 本稿では,過去2年間に起こった画像を用いた視覚的質問応答の急速な進歩について述べる。
Manmadhan氏らによるレビュー論文には、視覚的質問応答の利点に関するいくつかのポイントが言及されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding visual question answering is going to be crucial for numerous
human activities. However, it presents major challenges at the heart of the
artificial intelligence endeavor. This paper presents an update on the rapid
advancements in visual question answering using images that have occurred in
the last couple of years. Tremendous growth in research on improving visual
question answering system architecture has been published recently, showing the
importance of multimodal architectures. Several points on the benefits of
visual question answering are mentioned in the review paper by Manmadhan et al.
(2020), on which the present article builds, including subsequent updates in
the field.
- Abstract(参考訳): 視覚的な質問応答を理解することは、多くの人間の活動にとって不可欠である。
しかし、これは人工知能の取り組みの核心にある大きな課題である。
本稿では,過去2年間に起こった画像を用いた視覚的質問応答の迅速化に関する最新情報について述べる。
近年,視覚質問応答システムアーキテクチャに関する研究が飛躍的に進展し,マルチモーダルアーキテクチャの重要性が示された。
Manmadhan et al. (2020) によるレビュー論文には、視覚的質問応答の利点に関するいくつかのポイントが言及されており、この記事は、この分野におけるその後の更新を含む、構築されている。
関連論文リスト
- Long-Form Answers to Visual Questions from Blind and Low Vision People [54.00665222249701]
VizWiz-LFは視覚障害者(BLV)による視覚的質問に対する長文回答のデータセットである。
LFVQAの文の機能的役割を開発し,長文回答が質問応答以上の情報を含んでいることを示す。
論文 参考訳(メタデータ) (2024-08-12T17:15:02Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:33:54Z) - Chart Question Answering: State of the Art and Future Directions [0.0]
チャート質問回答 (Chart Question Answering, CQA) システムは、通常、チャートと自然言語の質問を入力として、回答を自動的に生成する。
本稿では,グラフ質問応答問題に着目した現状研究を体系的にレビューする。
論文 参考訳(メタデータ) (2022-05-08T22:54:28Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Bridge to Answer: Structure-aware Graph Interaction Network for Video
Question Answering [56.65656211928256]
本稿では,ある映像に対する質問に対する正しい回答を推測する新しい手法である「回答のためのブリッジ」を提案する。
映像と問合せの関係を利用して,問答間インタラクションを用いて各視覚ノードを有効化することにより,質問条件付きビジュアルグラフを学習する。
本手法は,映像質問応答に強力な能力を示す外観と動作に起因する質問条件付き視覚表現を学習できる。
論文 参考訳(メタデータ) (2021-04-29T03:02:37Z) - Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue [42.563261906213455]
視覚状態に対する異なる回答の効果を付加するアンサー駆動型視覚状態推定器(ADVSE)を提案する。
まず、視覚的注意に対する回答駆動の効果を捉えるために、回答駆動集中注意(ADFA)を提案する。
そして、焦点をあてて、条件付き視覚情報融合(CVIF)による視覚状態推定を行う。
論文 参考訳(メタデータ) (2020-10-01T12:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。