論文の概要: Achieving Human Parity on Visual Question Answering
- arxiv url: http://arxiv.org/abs/2111.08896v3
- Date: Fri, 19 Nov 2021 07:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 14:25:12.746863
- Title: Achieving Human Parity on Visual Question Answering
- Title(参考訳): 視覚的質問応答におけるヒューマンパリティの達成
- Authors: Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang,
Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji
Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin
- Abstract要約: The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
- 参考スコア(独自算出の注目度): 67.22500027651509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Visual Question Answering (VQA) task utilizes both visual image and
language analysis to answer a textual question with respect to an image. It has
been a popular research topic with an increasing number of real-world
applications in the last decade. This paper describes our recent research of
AliceMind-MMU (ALIbaba's Collection of Encoder-decoders from Machine
IntelligeNce lab of Damo academy - MultiMedia Understanding) that obtains
similar or even slightly better results than human being does on VQA. This is
achieved by systematically improving the VQA pipeline including: (1)
pre-training with comprehensive visual and textual feature representation; (2)
effective cross-modal interaction with learning to attend; and (3) A novel
knowledge mining framework with specialized expert modules for the complex VQA
task. Treating different types of visual questions with corresponding expertise
needed plays an important role in boosting the performance of our VQA
architecture up to the human level. An extensive set of experiments and
analysis are conducted to demonstrate the effectiveness of the new research
work.
- Abstract(参考訳): 視覚質問応答(vqa)タスクは、視覚画像と言語分析の両方を使用して、画像に関するテキスト質問に応答する。
この10年間で現実世界のアプリケーションが増えていることで、人気のある研究テーマとなっている。
本稿では,alicemind-mmu (alibaba's collection of encoder-decoder from machine intelligence lab of damo academy - multimedia understanding) に関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
異なるタイプの視覚的質問を必要な専門知識で扱うことは、VQAアーキテクチャのパフォーマンスを人間レベルまで上げる上で重要な役割を担います。
新しい研究成果の有効性を示すために,広範囲にわたる実験と分析を行った。
関連論文リスト
- VQA$^2$:Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメントは、もともとは定量的ビデオ品質アセスメントに重点を置いていた。
現在は、より包括的な視覚的品質理解タスクへと進化している。
本稿では,映像品質評価に焦点をあてた視覚的質問応答指導データセットについて紹介する。
映像品質評価と映像品質理解の両課題について広範な実験を行った。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities [2.0681376988193843]
この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
論文 参考訳(メタデータ) (2023-11-01T05:39:41Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - An experimental study of the vision-bottleneck in VQA [17.132865538874352]
視覚質問応答(VQA)における視覚ブロックの検討
画像から抽出した視覚オブジェクトの量と品質を実験する。
また,質問に答えるために必要な対象に関する情報を組み込むための2つの方法の影響についても検討した。
論文 参考訳(メタデータ) (2022-02-14T16:43:32Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Enhancing Visual Dialog Questioner with Entity-based Strategy Learning
and Augmented Guesser [43.42833961578857]
本稿では,関連エンティティの指導の下で質問を生成し,人間の対話からエンティティベースの質問戦略を学習するReeQ(Relationed entity enhanced Questioner)を提案する。
また,特にVD設定に最適化されたAugG(Augmented Guesser)を提案する。
VisDial v1.0データセットによる実験結果から,本手法は画像認識タスクと問合せ多様性の両方において最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-09-06T08:58:43Z) - Component Analysis for Visual Question Answering Architectures [10.56011196733086]
本論文の主な目的は,視覚質問応答モデルにおける各コンポーネントの影響を包括的に分析することである。
我々の主な貢献は、VQAモデルをトレーニングするためのコアコンポーネントを特定し、その予測性能を最大化することです。
論文 参考訳(メタデータ) (2020-02-12T17:25:50Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。