論文の概要: A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from
Linguistically Complex Text
- arxiv url: http://arxiv.org/abs/2305.02265v1
- Date: Wed, 3 May 2023 16:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:58:55.892839
- Title: A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from
Linguistically Complex Text
- Title(参考訳): 言語的複雑なテキストからの画像検索のためのニューラルディバイド・アンド・コンクェリ推論フレームワーク
- Authors: Yunxin Li, Baotian Hu, Yunxin Ding, Lin Ma, and Min Zhang
- Abstract要約: 我々はNDCRと呼ばれるエンドツーエンドのニューラルディバイド・アンド・コンカヤ推論フレームワークを提案する。
1)命題生成器は、複合命題テキストを単純な命題文に分割し、対応する表現を生成する。
本研究では,文脈記述データセットから挑戦的な画像検索を行う。
- 参考スコア(独自算出の注目度): 23.854023255928208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained Vision-Language Models (VLMs) have achieved remarkable performance
in image retrieval from text. However, their performance drops drastically when
confronted with linguistically complex texts that they struggle to comprehend.
Inspired by the Divide-and-Conquer algorithm and dual-process theory, in this
paper, we regard linguistically complex texts as compound proposition texts
composed of multiple simple proposition sentences and propose an end-to-end
Neural Divide-and-Conquer Reasoning framework, dubbed NDCR. It contains three
main components: 1)Divide: a proposition generator divides the compound
proposition text into simple proposition sentences and produces their
corresponding representations, 2)Conquer: a pretrained VLMs-based
visual-linguistic interactor achieves the interaction between decomposed
proposition sentences and images, 3)Combine: a neural-symbolic reasoner
combines the above reasoning states to obtain the final solution via a neural
logic reasoning approach. According to the dual-process theory, the
visual-linguistic interactor and neural-symbolic reasoner could be regarded as
analogical reasoning System 1 and logical reasoning System 2. We conduct
extensive experiments on a challenging image retrieval from contextual
descriptions data set. Experimental results and analyses indicate NDCR
significantly improves performance in the complex image-text reasoning problem.
Code link: https://github.com/YunxinLi/NDCR.
- Abstract(参考訳): VLM(Pretrained Vision-Language Models)は,テキストからの画像検索において顕著な性能を発揮する。
しかし、理解に苦しむ言語的に複雑なテキストに直面すると、そのパフォーマンスは大きく低下する。
本稿では,複数の単純な命題文からなる複合命題テキストとして言語的に複雑なテキストを考察し,NDCRと呼ばれるエンドツーエンドのニューラルディバイド・アンド・コンカー推論フレームワークを提案する。
1)命題生成器は,合成命題文を単純な命題文に分割し,それらの表現を生成する,2)事前訓練されたVLMに基づく視覚言語的対話器は,分解された命題文と画像間の相互作用を達成する,3)コビン: ニューラルシンボリック推論器は,上記の推論状態を組み合わせて,論理的推論手法を用いて最終解を得る。
双対過程理論によれば、視覚言語相互作用系と神経記号推論系は類似推論系1と論理推論系2と見なすことができる。
本研究では,文脈記述データセットから挑戦的な画像検索を行う。
実験結果と解析結果から,NDCRは複雑な画像テキスト推論問題の性能を著しく向上させることが示された。
コードリンク: https://github.com/yunxinli/ndcr。
関連論文リスト
- LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multimodal Neural Machine Translation with Search Engine Based Image
Retrieval [4.662583832063716]
バイリンガルパラレルコーパスのための記述画像収集のためのオープン語彙画像検索手法を提案する。
提案手法は,強いベースラインに対する大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-26T08:42:06Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。