論文の概要: Linguistic Structure Guided Context Modeling for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2010.00515v3
- Date: Mon, 5 Oct 2020 08:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:17:21.859853
- Title: Linguistic Structure Guided Context Modeling for Referring Image
Segmentation
- Title(参考訳): 画像セグメンテーション参照のための言語構造誘導コンテキストモデリング
- Authors: Tianrui Hui, Si Liu, Shaofei Huang, Guanbin Li, Sansi Yu, Faxi Zhang,
Jizhong Han
- Abstract要約: 本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
- 参考スコア(独自算出の注目度): 61.701577239317785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to predict the foreground mask of the
object referred by a natural language sentence. Multimodal context of the
sentence is crucial to distinguish the referent from the background. Existing
methods either insufficiently or redundantly model the multimodal context. To
tackle this problem, we propose a "gather-propagate-distribute" scheme to model
multimodal context by cross-modal interaction and implement this scheme as a
novel Linguistic Structure guided Context Modeling (LSCM) module. Our LSCM
module builds a Dependency Parsing Tree suppressed Word Graph (DPT-WG) which
guides all the words to include valid multimodal context of the sentence while
excluding disturbing ones through three steps over the multimodal feature,
i.e., gathering, constrained propagation and distributing. Extensive
experiments on four benchmarks demonstrate that our method outperforms all the
previous state-of-the-arts.
- Abstract(参考訳): 参照画像分割は、自然言語文で参照される対象の前景マスクを予測することを目的としている。
文のマルチモーダルな文脈は、対象と背景を区別するために重要である。
既存の方法は、不十分または冗長にマルチモーダルコンテキストをモデル化する。
この問題に対処するため,多モーダル相互作用によるマルチモーダルコンテキストをモデル化し,新たな言語構造ガイド型コンテキストモデリング(LSCM)モジュールとして実装する手法を提案する。
lscmモジュールは、依存構文解析木抑圧語グラフ(dpt-wg)を構築し、文の有効なマルチモーダル文脈を含むようにすべての単語をガイドし、マルチモーダル特徴、すなわち収集、制約付き伝播、分散の3ステップにわたって邪魔な単語を除外します。
4つのベンチマークの大規模な実験により、我々の手法は過去の最先端技術よりも優れていることが示された。
関連論文リスト
- SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization [49.931663904599205]
研究者は、インコンテキスト学習機能を備えた大規模マルチモーダルモデルを開発する技術を開発した。
既存のLMMは、マルチモーダルなデモンストレーションで視覚的コンテキストを効果的に活用せず、単にテキストパターンに従う。
本稿では,マルチモーダルな実演構築の伝統的なパラダイムを破るために,記号記述直接選好最適化(SymDPO)を提案する。
論文 参考訳(メタデータ) (2024-11-17T08:29:14Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - Comprehensive Multi-Modal Interactions for Referring Image Segmentation [7.064383217512461]
与えられた自然言語記述に対応するセグメンテーションマップを出力する参照画像(RIS)について検討する。
RISを効率的に解くためには、各単語が他の単語、画像内の各領域と他の領域との関係、および言語と視覚ドメイン間の相互モーダルアライメントを理解する必要があります。
本稿では,この課題に対処するための共同推論 (JRM) モジュールと,新しいクロスモーダル多層融合 (CMMLF) モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-21T08:45:09Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。