論文の概要: Cross-Modality Relevance for Reasoning on Language and Vision
- arxiv url: http://arxiv.org/abs/2005.06035v1
- Date: Tue, 12 May 2020 20:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 19:09:28.272891
- Title: Cross-Modality Relevance for Reasoning on Language and Vision
- Title(参考訳): 言語と視覚に関する推論における相互関連性
- Authors: Chen Zheng, Quan Guo, Parisa Kordjamshidi
- Abstract要約: 本研究は,視覚的質問応答(VQA)や視覚的推論(NLVR)などの下流課題に対する,言語と視覚データに対する学習と推論の課題を扱う。
我々は,目的タスクの監督の下で,様々な入力モダリティのコンポーネント間の関連性表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。
提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。
- 参考スコア(独自算出の注目度): 22.41781462637622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work deals with the challenge of learning and reasoning over language
and vision data for the related downstream tasks such as visual question
answering (VQA) and natural language for visual reasoning (NLVR). We design a
novel cross-modality relevance module that is used in an end-to-end framework
to learn the relevance representation between components of various input
modalities under the supervision of a target task, which is more generalizable
to unobserved data compared to merely reshaping the original representation
space. In addition to modeling the relevance between the textual entities and
visual entities, we model the higher-order relevance between entity relations
in the text and object relations in the image. Our proposed approach shows
competitive performance on two different language and vision tasks using public
benchmarks and improves the state-of-the-art published results. The learned
alignments of input spaces and their relevance representations by NLVR task
boost the training efficiency of VQA task.
- Abstract(参考訳): この研究は、視覚的質問応答(VQA)や視覚的推論(NLVR)といった、下流の課題に対する言語と視覚データに対する学習と推論の課題を扱う。
我々は,目的タスクの監督下で,様々な入力モダリティのコンポーネント間の関連表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。
テキストエンティティと視覚エンティティの関連性をモデル化することに加えて、テキスト内のエンティティ関係と画像内のオブジェクト関係との間の高次関連性をモデル化する。
提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。
NLVRタスクによる入力空間とその関連表現の学習アライメントにより、VQAタスクのトレーニング効率が向上する。
関連論文リスト
- Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities [18.859309032300402]
画像とテキストのモダリティからの情報の統合が視覚言語モデル(VLM)予測の性能と振舞いに与える影響について検討する。
本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。
この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T16:02:02Z) - Towards Flexible Visual Relationship Segmentation [25.890273232954055]
視覚的関係理解は、人間と物体の相互作用の検出、シーングラフの生成、およびタスクを参照する関係において別々に研究されている。
本稿では,FleVRSを提案する。FleVRSは,上述の3つの側面を,標準および即時的な視覚的関係のセグメンテーションにおいてシームレスに統合する単一モデルである。
当社のフレームワークは,既存のモデルを,標準,即応性,オープンボキャブラリタスクで上回ります。
論文 参考訳(メタデータ) (2024-08-15T17:57:38Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval [8.855547063009828]
本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
論文 参考訳(メタデータ) (2022-10-17T10:01:16Z) - Evaluation of Audio-Visual Alignments in Visually Grounded Speech Models [2.1320960069210484]
本研究は,視覚的接地音声(VGS)モデルを用いたマルチモーダル学習の研究である。
視覚オブジェクトと音声単語の整列におけるモデル性能評価のための体系的指標を提案する。
クロスモーダル・アテンションはモデルのセマンティック・クロスモーダル検索性能の向上に役立つことを示す。
論文 参考訳(メタデータ) (2021-07-05T12:54:05Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks [9.462808515258464]
本稿では,汎用物体検出装置から得られた物体属性を利用する注意機構であるLingguistically-Aware Attention (LAT)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
我々は,VQA,VQA,画像キャプションという3つの視覚言語(V-L)タスクにおけるLATの有効性を適用し,実演する。
論文 参考訳(メタデータ) (2020-08-18T16:29:49Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。