論文の概要: Multi-Image Visual Question Answering
- arxiv url: http://arxiv.org/abs/2112.13706v1
- Date: Mon, 27 Dec 2021 14:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 13:56:44.918534
- Title: Multi-Image Visual Question Answering
- Title(参考訳): マルチイメージビジュアル質問応答
- Authors: Harsh Raj, Janhavi Dadhania, Akhilesh Bhardwaj
- Abstract要約: 損失関数の異なる特徴抽出法について実験的検討を行った。
本稿では,1つの基礎的真実しか持たない複数の画像入力を用いた視覚質問応答タスクのための新しいデータセットを提案する。
Resnet+RCNNイメージ機能とBert埋め込みを利用した最終モデルは、スタックされた注目ネットワークにインスパイアされたもので、CLEVER+TinyImagenetデータセット上で39%の単語精度と99%の画像精度を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While a lot of work has been done on developing models to tackle the problem
of Visual Question Answering, the ability of these models to relate the
question to the image features still remain less explored. We present an
empirical study of different feature extraction methods with different loss
functions. We propose New dataset for the task of Visual Question Answering
with multiple image inputs having only one ground truth, and benchmark our
results on them. Our final model utilising Resnet + RCNN image features and
Bert embeddings, inspired from stacked attention network gives 39% word
accuracy and 99% image accuracy on CLEVER+TinyImagenet dataset.
- Abstract(参考訳): Visual Question Answeringの問題に対処するモデルの開発には、多くの作業が行われているが、これらのモデルが問題と画像の特徴を関連付ける能力はまだ検討されていない。
損失関数の異なる特徴抽出法について実験的検討を行った。
本稿では,複数の画像入力が1つの基礎的真理しか持たない視覚質問応答タスクのための新しいデータセットを提案し,その結果をベンチマークする。
resnet + rcnnイメージ機能とbert埋め込みを利用する最終モデルは、stacked attention networkにインスパイアされて、39%の単語精度と99%の画像精度を賢く+tinyimagenetデータセットに与えます。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Contrastive Learning of Features between Images and LiDAR [18.211513930388417]
この研究は、クロスモーダルな特徴を密接な対照的な学習問題として扱う。
優れた特徴を学習し、一般性を損なわないために、画像に広く使われているPointNet++アーキテクチャの亜種を開発した。
我々のモデルでは,特徴を可視化することで,画像とLiDARの両方から情報を学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-24T04:35:23Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - A Better Loss for Visual-Textual Grounding [74.81353762517979]
テキスト句と画像とが与えられた場合、視覚的接地問題は、文によって参照された画像の内容を特定するタスクとして定義される。
ヒューマン・コンピュータ・インタラクション、画像・テキスト・リファレンス・レゾリューション、ビデオ・テキスト・リファレンス・レゾリューションなどにおける現実的な応用がいくつかある課題である。
本稿では,より効率的な損失関数の導入により,最先端モデルよりも高い精度が得られるモデルを提案する。
論文 参考訳(メタデータ) (2021-08-11T16:26:54Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - RSVQA: Visual Question Answering for Remote Sensing Data [6.473307489370171]
本稿では,リモートセンシングデータ(RSVQA)における視覚的質問応答の課題を紹介する。
自然言語で定式化された質問を使って画像と対話する。
データセットは(教師付きメソッドを使用して)トレーニングや、RSVQAタスクを解決するためのモデル評価に使用することができる。
論文 参考訳(メタデータ) (2020-03-16T17:09:31Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。