Fugu-MT 論文翻訳(概要): Research on feature fusion and multimodal patent text based on graph attention network

論文の概要: Research on feature fusion and multimodal patent text based on graph attention network

arxiv url: http://arxiv.org/abs/2505.20188v1
Date: Mon, 26 May 2025 16:32:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 19:27:26.941987
Title: Research on feature fusion and multimodal patent text based on graph attention network
Title（参考訳）: グラフアテンションネットワークに基づく特徴融合とマルチモーダル特許テキストに関する研究
Authors: Zhenzhen Song, Ziwei Liu, Hongji Li,
Abstract要約: HGM-Netは階層的比較学習、マルチモーダルグラフアテンションネットワーク、マルチグラニュラリティスパースアテンションを統合したディープラーニングフレームワークである。実験により,本フレームワークは,特許分類や類似性マッチングといったタスクにおいて,既存のディープラーニング手法に対して大きな利点を示すことが示された。
参考スコア（独自算出の注目度）: 34.59247650206946
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aiming at the problems of cross-modal feature fusion, low efficiency of long text modeling and lack of hierarchical semantic coherence in patent text semantic mining, this study proposes HGM-Net, a deep learning framework that integrates Hierarchical Comparative Learning (HCL), Multi-modal Graph Attention Network (M-GAT) and Multi-Granularity Sparse Attention (MSA), which builds a dynamic mask, contrast and cross-structural similarity constraints on the word, sentence and paragraph hierarchies through HCL. Contrast and cross-structural similarity constraints are constructed at the word and paragraph levels by HCL to strengthen the local semantic and global thematic consistency of patent text; M-GAT models patent classification codes, citation relations and text semantics as heterogeneous graph structures, and achieves dynamic fusion of multi-source features by cross-modal gated attention; MSA adopts a hierarchical sparsity strategy to optimize the computational efficiency of long text modeling at word, phrase, sentence and paragraph granularity. Experiments show that the framework demonstrates significant advantages over existing deep learning methods in tasks such as patent classification and similarity matching, and provides a solution with both theoretical innovation and practical value for solving the problems of patent examination efficiency improvement and technology relevance mining.
Abstract（参考訳）: 特許テキストセマンティックマイニングにおいて,クロスモーダルな特徴融合,長期テキストモデリングの効率の低さ,階層的セマンティックコヒーレンス(階層的セマンティック・コヒーレンス)の欠如を考慮し,HGM-Netを提案する。HCLによる単語,文,段落階層の動的マスク,コントラスト,相互構造的類似性制約を構築できる階層的比較学習(HCL),マルチモーダルグラフアテンションネットワーク(M-GAT),マルチグラニュリティスパースアテンション(MSA)を統合したディープラーニングフレームワークである。 M-GATは特許分類コード,引用関係,テキスト意味を異種グラフ構造としてモデル化し,多元的特徴の動的融合を実現する。MSAは,単語,フレーズ,文,段落における長文モデリングの計算効率を最適化するために,階層的空間性戦略を採用する。実験により,本フレームワークは,特許分類や類似性マッチングなどのタスクにおいて,既存のディープラーニング手法よりも大きな利点を示し,特許審査効率向上と技術関連マイニングの問題を解決するための理論的革新と実践的価値の両面でソリューションを提供することが示された。

関連論文リスト

Enhancing Retrieval-Augmented Generation with Topic-Enriched Embeddings: A Hybrid Approach Integrating Traditional NLP Techniques [0.0]
本研究は,用語ベースの信号と話題構造を文脈文の埋め込みと統合したトピック強化埋め込みを提案する。項レベルのセマンティクスとトピックレベルのセマンティクスを併用することにより、トピックに富んだ埋め込みはセマンティクスクラスタリングを改善し、検索精度を高め、計算負担を軽減する。
論文参考訳（メタデータ） (2025-12-31T13:43:57Z)
UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-28T09:11:30Z)
Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。 LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T15:12:58Z)
Structures Meet Semantics: Multimodal Fusion via Graph Contrastive Learning [8.187594234413568]
SSU(Structure-Semantic Unifier)と呼ばれる新しいフレームワークを提案する。 SSUは、モダリティ固有の構造情報と、拡張マルチモーダル表現のためのクロスモーダルセマンティックグラウンドを統合している。 SSUは一貫して最先端の性能を実現し、計算オーバーヘッドを大幅に削減する。
論文参考訳（メタデータ） (2025-08-24T13:44:54Z)
Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:07:41Z)
Boosting Neural Language Inference via Cascaded Interactive Reasoning [38.125341836302525]
自然言語推論(NLI)は、与えられた前提と仮説の間の論理的関係の確認に焦点を当てている。この課題は、多様な言い回し、意味的複雑さ、文脈的ニュアンスといった固有の言語的特徴により、重大な課題を提起する。 NLIにおける深い意味理解のために設計された新しいアーキテクチャであるCascaded Interactive Reasoning Network (CIRN)を紹介する。
論文参考訳（メタデータ） (2025-05-10T11:37:15Z)
TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems [5.941744252133915]
本稿では,人工知能の領域におけるマルチモーダルアライメント,特にテキストと画像のモダリティに焦点を当てる。我々は,エネルギーベースモデル(EBM)フレームワークを活用し,複雑な相互関係を捉える革新的な事前学習戦略であるTI-JEPA(Text-Image Joint Embedding Predictive Architecture)を紹介する。
論文参考訳（メタデータ） (2025-03-09T01:34:28Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling [39.14392943549792]
本稿では,階層型プロンプトチューニング(HPT)と呼ばれる新しい手法を提案し,構造化知識と従来の言語知識の同時モデリングを可能にする。低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。全体意味論をモデル化する高レベルかつグローバルレベルのプロンプトを取り入れることで、提案された階層構造は、クロスレベルな相互リンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文参考訳（メタデータ） (2024-08-27T06:50:28Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)
Knowledge-Enhanced Hierarchical Information Correlation Learning for Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。 KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文参考訳（メタデータ） (2023-06-28T06:08:20Z)
Chain-of-Thought Prompt Distillation for Multimodal Named Entity Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文参考訳（メタデータ） (2023-06-25T04:33:56Z)
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。 LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文参考訳（メタデータ） (2022-01-17T09:46:59Z)
Investigating Bi-Level Optimization for Learning and Vision from a Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文参考訳（メタデータ） (2021-01-27T16:20:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。