論文の概要: Visual Question Answering: which investigated applications?
- arxiv url: http://arxiv.org/abs/2103.02937v1
- Date: Thu, 4 Mar 2021 10:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:57:16.457607
- Title: Visual Question Answering: which investigated applications?
- Title(参考訳): Visual Question Answering: どのアプリケーションを調査したか?
- Authors: Silvio Barra, Carmen Bisogni, Maria De Marsico, Stefano Ricciardi
- Abstract要約: VQAでは、同じメディアのセマンティック情報は、自然言語で表現された質問によって暗示されるセマンティックスと比較されなければならない。
本稿では、アプリケーションドメインにバインドされたデータに適したベンチマークとして、現実のアプリケーションに焦点を当てた提案について考察する。
- 参考スコア(独自算出の注目度): 14.332672914799272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is an extremely stimulating and challenging
research area where Computer Vision (CV) and Natural Language Processig (NLP)
have recently met. In image captioning and video summarization, the semantic
information is completely contained in still images or video dynamics, and it
has only to be mined and expressed in a human-consistent way. Differently from
this, in VQA semantic information in the same media must be compared with the
semantics implied by a question expressed in natural language, doubling the
artificial intelligence-related effort. Some recent surveys about VQA
approaches have focused on methods underlying either the image-related
processing or the verbal-related one, or on the way to consistently fuse the
conveyed information. Possible applications are only suggested, and, in fact,
most cited works rely on general-purpose datasets that are used to assess the
building blocks of a VQA system. This paper rather considers the proposals that
focus on real-world applications, possibly using as benchmarks suitable data
bound to the application domain. The paper also reports about some recent
challenges in VQA research.
- Abstract(参考訳): VQA(Visual Question Answering)は、コンピュータビジョン(CV)と自然言語処理(NLP)が最近出会った非常に刺激的で挑戦的な研究分野である。
画像キャプションとビデオ要約では、セマンティック情報は静止画またはビデオダイナミクスに完全に含まれており、人間の一貫性のある方法でマイニングおよび表現されるだけです。
これとは違って、同じメディア内のVQAセマンティック情報は、自然言語で表現された質問によって暗示されるセマンティックスと比較されなければならない。
VQAアプローチに関する最近の調査では、画像関連処理や言語関連処理の基礎となる手法や、伝達された情報を一貫して融合させる方法に焦点が当てられている。
実際、引用されたほとんどの作品は、VQAシステムのビルディングブロックを評価するために使用される汎用データセットに依存しています。
本稿では、実際のアプリケーションにフォーカスした提案を検討し、アプリケーションドメインにバインドされた適切なデータをベンチマークとして使用する可能性について考察する。
また、VQA研究における最近の課題についても報告する。
関連論文リスト
- Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual
Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。
データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。
提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-05-07T03:59:31Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。