Fugu-MT 論文翻訳(概要): PV2TEA: Patching Visual Modality to Textual-Established Information Extraction

論文の概要: PV2TEA: Patching Visual Modality to Textual-Established Information Extraction

arxiv url: http://arxiv.org/abs/2306.01016v1
Date: Thu, 1 Jun 2023 05:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 18:42:38.770471
Title: PV2TEA: Patching Visual Modality to Textual-Established Information Extraction
Title（参考訳）: PV2TEA: テキスト情報抽出への視覚的モダリティの対応
Authors: Hejie Cui, Rongmei Lin, Nasser Zalmout, Chenwei Zhang, Jingbo Shang, Carl Yang, Xian Li
Abstract要約: 我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。 PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
参考スコア（独自算出の注目度）: 59.76117533540496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Information extraction, e.g., attribute value extraction, has been extensively studied and formulated based only on text. However, many attributes can benefit from image-based extraction, like color, shape, pattern, among others. The visual modality has long been underutilized, mainly due to multimodal annotation difficulty. In this paper, we aim to patch the visual modality to the textual-established attribute information extractor. The cross-modality integration faces several unique challenges: (C1) images and textual descriptions are loosely paired intra-sample and inter-samples; (C2) images usually contain rich backgrounds that can mislead the prediction; (C3) weakly supervised labels from textual-established extractors are biased for multimodal training. We present PV2TEA, an encoder-decoder architecture equipped with three bias reduction schemes: (S1) Augmented label-smoothed contrast to improve the cross-modality alignment for loosely-paired image and text; (S2) Attention-pruning that adaptively distinguishes the visual foreground; (S3) Two-level neighborhood regularization that mitigates the label textual bias via reliability estimation. Empirical results on real-world e-Commerce datasets demonstrate up to 11.74% absolute (20.97% relatively) F1 increase over unimodal baselines.
Abstract（参考訳）: 属性値抽出などの情報抽出は、テキストのみに基づいて広く研究され、定式化されている。しかし、多くの属性は、色、形状、パターンなど、画像に基づく抽出の恩恵を受けることができる。視覚モダリティは、主にマルチモーダルなアノテーションの難しさから、長い間使われていなかった。本稿では,テキスト化された属性情報抽出器に視覚的モダリティをパッチすることを目的とする。 C1) 画像とテキスト記述は、サンプル内とサンプル間の疎結合である; (C2) 画像は通常、予測を誤解させる可能性のある豊富な背景を含んでいる; (C3) テキスト確立された抽出器からの弱い教師付きラベルは、マルチモーダルトレーニングに偏っている。本稿では,3つのバイアス低減方式を備えたエンコーダ・デコーダアーキテクチャであるPV2TEAについて述べる。 (S1) ラベルの平滑化コントラストを改良し,ゆるやかにペアリングされた画像とテキストの相互アライメントを改善する; (S2) 視覚的前景を適応的に区別するアテンション・プルーニング; (S3) ラベルのテキストバイアスを軽減する2段階の近傍正規化。実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。

関連論文リスト

OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
Beyond Intermediate States: Explaining Visual Redundancy through Language [7.275188652473603]
MLLM(Multi-modal Large Langue Models)はしばしば数千の視覚トークンを処理する。低いViT-[cls]アソシエーションと低いテキスト・ツー・イメージアテンションスコアを持つビジュアルトークンは、認識可能な情報を含むことができる。冗長な視覚トークンを識別および解析するための信頼性の高い手法を開発した。
論文参考訳（メタデータ） (2025-03-26T13:38:10Z)
LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。 4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文参考訳（メタデータ） (2025-03-19T14:37:21Z)
MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。 CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文参考訳（メタデータ） (2024-07-05T06:44:43Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。 Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文参考訳（メタデータ） (2023-06-03T11:50:44Z)
Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文参考訳（メタデータ） (2023-03-22T12:11:59Z)
Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。 CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文参考訳（メタデータ） (2022-11-01T05:48:18Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
Dual-path CNN with Max Gated block for Text-Based Person Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文参考訳（メタデータ） (2020-09-20T03:33:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。