論文の概要: Research on feature fusion and multimodal patent text based on graph attention network
- arxiv url: http://arxiv.org/abs/2505.20188v1
- Date: Mon, 26 May 2025 16:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.941987
- Title: Research on feature fusion and multimodal patent text based on graph attention network
- Title(参考訳): グラフアテンションネットワークに基づく特徴融合とマルチモーダル特許テキストに関する研究
- Authors: Zhenzhen Song, Ziwei Liu, Hongji Li,
- Abstract要約: HGM-Netは階層的比較学習、マルチモーダルグラフアテンションネットワーク、マルチグラニュラリティスパースアテンションを統合したディープラーニングフレームワークである。
実験により,本フレームワークは,特許分類や類似性マッチングといったタスクにおいて,既存のディープラーニング手法に対して大きな利点を示すことが示された。
- 参考スコア(独自算出の注目度): 34.59247650206946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming at the problems of cross-modal feature fusion, low efficiency of long text modeling and lack of hierarchical semantic coherence in patent text semantic mining, this study proposes HGM-Net, a deep learning framework that integrates Hierarchical Comparative Learning (HCL), Multi-modal Graph Attention Network (M-GAT) and Multi-Granularity Sparse Attention (MSA), which builds a dynamic mask, contrast and cross-structural similarity constraints on the word, sentence and paragraph hierarchies through HCL. Contrast and cross-structural similarity constraints are constructed at the word and paragraph levels by HCL to strengthen the local semantic and global thematic consistency of patent text; M-GAT models patent classification codes, citation relations and text semantics as heterogeneous graph structures, and achieves dynamic fusion of multi-source features by cross-modal gated attention; MSA adopts a hierarchical sparsity strategy to optimize the computational efficiency of long text modeling at word, phrase, sentence and paragraph granularity. Experiments show that the framework demonstrates significant advantages over existing deep learning methods in tasks such as patent classification and similarity matching, and provides a solution with both theoretical innovation and practical value for solving the problems of patent examination efficiency improvement and technology relevance mining.
- Abstract(参考訳): 特許テキストセマンティックマイニングにおいて,クロスモーダルな特徴融合,長期テキストモデリングの効率の低さ,階層的セマンティックコヒーレンス(階層的セマンティック・コヒーレンス)の欠如を考慮し,HGM-Netを提案する。HCLによる単語,文,段落階層の動的マスク,コントラスト,相互構造的類似性制約を構築できる階層的比較学習(HCL),マルチモーダルグラフアテンションネットワーク(M-GAT),マルチグラニュリティスパースアテンション(MSA)を統合したディープラーニングフレームワークである。
M-GATは特許分類コード,引用関係,テキスト意味を異種グラフ構造としてモデル化し,多元的特徴の動的融合を実現する。MSAは,単語,フレーズ,文,段落における長文モデリングの計算効率を最適化するために,階層的空間性戦略を採用する。
実験により,本フレームワークは,特許分類や類似性マッチングなどのタスクにおいて,既存のディープラーニング手法よりも大きな利点を示し,特許審査効率向上と技術関連マイニングの問題を解決するための理論的革新と実践的価値の両面でソリューションを提供することが示された。
関連論文リスト
- Boosting Neural Language Inference via Cascaded Interactive Reasoning [38.125341836302525]
自然言語推論(NLI)は、与えられた前提と仮説の間の論理的関係の確認に焦点を当てている。
この課題は、多様な言い回し、意味的複雑さ、文脈的ニュアンスといった固有の言語的特徴により、重大な課題を提起する。
NLIにおける深い意味理解のために設計された新しいアーキテクチャであるCascaded Interactive Reasoning Network (CIRN)を紹介する。
論文 参考訳(メタデータ) (2025-05-10T11:37:15Z) - TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems [5.941744252133915]
本稿では,人工知能の領域におけるマルチモーダルアライメント,特にテキストと画像のモダリティに焦点を当てる。
我々は,エネルギーベースモデル(EBM)フレームワークを活用し,複雑な相互関係を捉える革新的な事前学習戦略であるTI-JEPA(Text-Image Joint Embedding Predictive Architecture)を紹介する。
論文 参考訳(メタデータ) (2025-03-09T01:34:28Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Investigating Bi-Level Optimization for Learning and Vision from a
Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。
本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。
次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文 参考訳(メタデータ) (2021-01-27T16:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。