論文の概要: Retrieval over Classification: Integrating Relation Semantics for Multimodal Relation Extraction
- arxiv url: http://arxiv.org/abs/2509.21151v1
- Date: Thu, 25 Sep 2025 13:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.941378
- Title: Retrieval over Classification: Integrating Relation Semantics for Multimodal Relation Extraction
- Title(参考訳): 分類上の検索:マルチモーダル関係抽出のための関係意味論の統合
- Authors: Lei Hei, Tingjing Liao, Yingxin Pei, Yiyang Qi, Jiaqi Wang, Ruiting Li, Feiliang Ren,
- Abstract要約: 関係抽出(RE)は、非構造化テキストにおけるエンティティ間の意味的関係を特定することを目的としている。
underlineRetrieval underlineOver underlineClassification (ROC)は、リレーショナルセマンティクスによって駆動される検索タスクとしてマルチモーダルREを再構成する新しいフレームワークである。
ROCは、マルチモーダルエンコーダを通じてエンティティタイプと位置情報を統合し、大きな言語モデルを用いて関係ラベルを自然言語記述に拡張し、意味的類似性に基づくコントラスト学習を通じてエンティティ-リレーションペアを調整する。
- 参考スコア(独自算出の注目度): 6.478238734128006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation extraction (RE) aims to identify semantic relations between entities in unstructured text. Although recent work extends traditional RE to multimodal scenarios, most approaches still adopt classification-based paradigms with fused multimodal features, representing relations as discrete labels. This paradigm has two significant limitations: (1) it overlooks structural constraints like entity types and positional cues, and (2) it lacks semantic expressiveness for fine-grained relation understanding. We propose \underline{R}etrieval \underline{O}ver \underline{C}lassification (ROC), a novel framework that reformulates multimodal RE as a retrieval task driven by relation semantics. ROC integrates entity type and positional information through a multimodal encoder, expands relation labels into natural language descriptions using a large language model, and aligns entity-relation pairs via semantic similarity-based contrastive learning. Experiments show that our method achieves state-of-the-art performance on the benchmark datasets MNRE and MORE and exhibits stronger robustness and interpretability.
- Abstract(参考訳): 関係抽出(RE)は、非構造化テキストにおけるエンティティ間の意味的関係を特定することを目的としている。
最近の研究は、従来のREをマルチモーダルシナリオに拡張しているが、ほとんどのアプローチは、分離されたラベルとして関係を表す、融合したマルチモーダル特徴を持つ分類に基づくパラダイムを採用し続けている。
このパラダイムには2つの重要な制限がある:(1)エンティティタイプや位置的手がかりのような構造的制約を見落とし、(2)微粒な関係理解のための意味表現性を欠いている。
本稿では,関係セマンティクスによって駆動される検索タスクとしてマルチモーダル RE を再構成する新しいフレームワークである \underline{R}etrieval \underline{O}ver \underline{C}lassification (ROC) を提案する。
ROCは、マルチモーダルエンコーダを通じてエンティティタイプと位置情報を統合し、大きな言語モデルを用いて関係ラベルを自然言語記述に拡張し、意味的類似性に基づくコントラスト学習を通じてエンティティ-リレーションペアを調整する。
実験の結果,MNRE と MORE のベンチマークデータセット上での最先端性能を実現し,強靭性と解釈性を示すことがわかった。
関連論文リスト
- Multimodal Representation Learning Conditioned on Semantic Relations [10.999120598129126]
マルチモーダル表現学習はCLIPのような対照的なモデルで急速に進歩している。
本稿では,自然言語関係記述に基づくマルチモーダル表現学習フレームワークであるRelation-Conditioned Multimodal Learning RCMLを提案する。
提案手法では,意味的関係に関連付けられた多対多の学習ペアを構築し,関係誘導型クロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-08-24T19:36:18Z) - ReMeREC: Relation-aware and Multi-entity Referring Expression Comprehension [29.50623143244436]
ReMeRECは、自然言語の記述に基づいて、イメージ内の特定のエンティティやリージョンをローカライズすることを目的としている。
まず、ReMeXと呼ばれる関係認識型マルチエンタリティRECデータセットを構築した。
次に,複数のエンティティのローカライズに視覚的およびテキスト的手がかりを併用した新しいフレームワークReMeRECを提案する。
論文 参考訳(メタデータ) (2025-07-22T11:23:48Z) - Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension [31.952192907460713]
Relation-R1は、テキストファーストの統一関係理解フレームワークである。
認知連鎖(CoT)誘導型微調整(SFT)とグループ相対政策最適化(GRPO)を統合している。
広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-20T14:50:49Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Modelling Multi-relations for Convolutional-based Knowledge Graph
Embedding [0.2752817022620644]
このようなアプローチは、エンティティペア間のマルチリレーションのセマンティック接続を切断すると考えられる。
本稿では,畳み込み型マルチリレーショナル学習モデルであるConvMRを提案する。
ConvMRは、少ない頻度のエンティティを扱うのに効率的であることを示す。
論文 参考訳(メタデータ) (2022-10-21T03:43:06Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Transformer-based Dual Relation Graph for Multi-label Image Recognition [56.12543717723385]
本稿では,トランスフォーマーをベースとしたデュアルリレーショナル学習フレームワークを提案する。
相関の2つの側面、すなわち構造関係グラフと意味関係グラフについて検討する。
提案手法は,2つのポピュラーなマルチラベル認識ベンチマークにおいて,最先端性を実現する。
論文 参考訳(メタデータ) (2021-10-10T07:14:52Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。