論文の概要: On Analyzing the Role of Image for Visual-enhanced Relation Extraction
- arxiv url: http://arxiv.org/abs/2211.07504v1
- Date: Mon, 14 Nov 2022 16:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:43:11.352705
- Title: On Analyzing the Role of Image for Visual-enhanced Relation Extraction
- Title(参考訳): 視覚的関係抽出における画像の役割の分析
- Authors: Lei Li, Xiang Chen, Shuofei Qiao, Feiyu Xiong, Huajun Chen, Ningyu
Zhang
- Abstract要約: 本稿では,視覚的シーングラフにおける不正確な情報が,モーダルアライメントの重みを低下させることを示す,詳細な実験分析を行う。
マルチモーダル関係抽出のためのTransformerに基づく暗黙的な微細なマルチモーダルアライメントを持つ強いベースラインを提案する。
- 参考スコア(独自算出の注目度): 36.84650189600189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal relation extraction is an essential task for knowledge graph
construction. In this paper, we take an in-depth empirical analysis that
indicates the inaccurate information in the visual scene graph leads to poor
modal alignment weights, further degrading performance. Moreover, the visual
shuffle experiments illustrate that the current approaches may not take full
advantage of visual information. Based on the above observation, we further
propose a strong baseline with an implicit fine-grained multimodal alignment
based on Transformer for multimodal relation extraction. Experimental results
demonstrate the better performance of our method. Codes are available at
https://github.com/zjunlp/DeepKE/tree/main/example/re/multimodal.
- Abstract(参考訳): マルチモーダル関係抽出は知識グラフ構築に不可欠なタスクである。
本稿では,視覚的シーングラフにおける不正確な情報から,モーダルアライメントの重みが低下し,さらに劣化することを示す詳細な実験分析を行う。
さらに、視覚シャッフル実験は、現在のアプローチが視覚情報を完全に活用できないことを示している。
さらに,この観測に基づいて,マルチモーダル関係抽出のためのトランスフォーマに基づく暗黙の微細なマルチモーダルアライメントを持つ強いベースラインを提案する。
実験の結果,本手法の性能が向上した。
コードはhttps://github.com/zjunlp/deepke/tree/main/example/re/multimodalで入手できる。
関連論文リスト
- Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors [10.454194186065195]
強化学習はロボット制御タスクにおいて有望な成果を上げてきたが、情報の有効活用に苦慮している。
最近の研究は、複数の感覚入力から関節表現を抽出するために、再構成や相互情報に基づく補助的損失を構築している。
生のマルチモーダル観測について,学習した共同表現で情報を圧縮することが有用である。
論文 参考訳(メタデータ) (2024-10-23T04:32:37Z) - Towards Robust and Accurate Visual Prompting [11.918195429308035]
本研究では,ロバストモデルから派生した視覚的プロンプトが,一般化性能の低下に悩まされながら,ロバスト性を継承できるかどうかを検討する。
本稿では,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を提案する。
本研究は普遍的であり,提案手法の意義を実証するものである。
論文 参考訳(メタデータ) (2023-11-18T07:00:56Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。