論文の概要: Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text
- arxiv url: http://arxiv.org/abs/2003.13962v1
- Date: Tue, 31 Mar 2020 05:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:16:06.528700
- Title: Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text
- Title(参考訳): 視覚とシーンテキストの同時推論のためのマルチモーダルグラフニューラルネットワーク
- Authors: Difei Gao, Ke Li, Ruiping Wang, Shiguang Shan, Xilin Chen
- Abstract要約: 我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
- 参考スコア(独自算出の注目度): 93.08109196909763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Answering questions that require reading texts in an image is challenging for
current models. One key difficulty of this task is that rare, polysemous, and
ambiguous words frequently appear in images, e.g., names of places, products,
and sports teams. To overcome this difficulty, only resorting to pre-trained
word embedding models is far from enough. A desired model should utilize the
rich information in multiple modalities of the image to help understand the
meaning of scene texts, e.g., the prominent text on a bottle is most likely to
be the brand. Following this idea, we propose a novel VQA approach, Multi-Modal
Graph Neural Network (MM-GNN). It first represents an image as a graph
consisting of three sub-graphs, depicting visual, semantic, and numeric
modalities respectively. Then, we introduce three aggregators which guide the
message passing from one graph to another to utilize the contexts in various
modalities, so as to refine the features of nodes. The updated nodes have
better features for the downstream question answering module. Experimental
evaluations show that our MM-GNN represents the scene texts better and
obviously facilitates the performances on two VQA tasks that require reading
scene texts.
- Abstract(参考訳): 画像中のテキストを読む必要がある質問への答えは、現在のモデルでは難しい。
この課題の重要な難しさの一つは、稀で多義的で曖昧な言葉が、場所、製品、スポーツチームの名前など画像にしばしば現れることである。
この困難を克服するために、事前訓練された単語埋め込みモデルに頼るだけでは十分ではない。
所望のモデルは、画像の複数のモダリティでリッチな情報を活用して、シーンテキストの意味を理解するのに役立つべきである。
本稿では,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
まず、画像を3つのサブグラフからなるグラフとして表現し、それぞれ視覚的、意味的、数値的モダリティを描写する。
そこで,3つのアグリゲータを導入して,あるグラフから別のグラフへのメッセージ転送を誘導し,そのコンテキストを様々なモードで利用し,ノードの特徴を洗練させる。
更新されたノードは、下流の質問応答モジュールよりも優れた機能を備えている。
実験により,本手法はシーンテキストをより良く表現し,シーンテキストの読解を必要とする2つのVQAタスクの実行を容易にすることが示された。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。