論文の概要: Improving LLM-based Ontology Matching with fine-tuning on synthetic data
- arxiv url: http://arxiv.org/abs/2511.22612v1
- Date: Thu, 27 Nov 2025 16:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.651806
- Title: Improving LLM-based Ontology Matching with fine-tuning on synthetic data
- Title(参考訳): 合成データの微調整によるLDMを用いたオントロジーマッチングの改良
- Authors: Guilherme Sousa, Rinaldo Lima, Cassia Trojahn,
- Abstract要約: 大規模言語モデル(LLM)は、オントロジーマッチングパイプラインの様々なコンポーネントに統合されつつある。
本稿では,LLMがオントロジーモジュール上で直接一致し,対応するアライメントを生成する能力について検討する。
専用の微調整戦略は、ゼロショット設定でモデルのマッチング性能を高めることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being integrated into various components of Ontology Matching pipelines. This paper investigates the capability of LLMs to perform ontology matching directly on ontology modules and generate the corresponding alignments. Furthermore, it is explored how a dedicated fine-tuning strategy can enhance the model's matching performance in a zero-shot setting. The proposed method incorporates a search space reduction technique to select relevant subsets from both source and target ontologies, which are then used to automatically construct prompts. Recognizing the scarcity of reference alignments for training, a novel LLM-based approach is introduced for generating a synthetic dataset. This process creates a corpus of ontology submodule pairs and their corresponding reference alignments, specifically designed to fine-tune an LLM for the ontology matching task. The proposed approach was evaluated on the Conference, Geolink, Enslaved, Taxon, and Hydrography datasets from the OAEI complex track. The results demonstrate that the LLM fine-tuned on the synthetically generated data exhibits superior performance compared to the non-fine-tuned base model. The key contribution is a strategy that combines automatic dataset generation with fine-tuning to effectively adapt LLMs for ontology matching tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オントロジーマッチングパイプラインの様々なコンポーネントに統合されつつある。
本稿では,LLMがオントロジーモジュール上で直接一致し,対応するアライメントを生成する能力について検討する。
さらに,ゼロショット設定において,専用微調整戦略がモデルのマッチング性能を向上する方法について検討した。
提案手法では,検索空間の削減手法を用いて,ソースとターゲットのオントロジーの両方から関連するサブセットを抽出し,プロンプトを自動生成する。
トレーニング用参照アライメントの不足を認識して、合成データセットを生成するための新しいLCMベースのアプローチを導入する。
このプロセスは、オントロジーのサブモジュール対とその対応する参照アライメントのコーパスを生成する。
提案手法は,OAEIコンプレックストラックのGeolink,Enslaved,Taxon,Hydrographyデータセットを用いて評価した。
その結果, 合成データに微調整したLLMは, 非微調整ベースモデルに比べて優れた性能を示した。
重要な貢献は、自動データセット生成と微調整を組み合わせて、オントロジーマッチングタスクにLLMを効果的に適応する戦略である。
関連論文リスト
- SOCRATES: Simulation Optimization with Correlated Replicas and Adaptive Trajectory Evaluations [25.18297372152296]
SOCRATESは、調整されたSOアルゴリズムの設計を自動化する新しい2段階のプロシージャである。
実システムのデジタルレプリカのアンサンブルは、ベースラインSOアルゴリズムのセットを評価するテストベッドとして使用される。
LLMはメタ最適化器として機能し、これらのアルゴリズムのパフォーマンストラジェクトリを分析して、最終的なハイブリッド最適化スケジュールを反復的に修正し構成する。
論文 参考訳(メタデータ) (2025-11-01T19:57:38Z) - LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding [55.5535016040221]
LM-Searcherは、クロスドメインニューラルネットワーク最適化のための新しいフレームワークである。
我々のアプローチの中心は、ニューラルネットワークのための普遍的な数値文字列表現であるNCodeである。
我々のデータセットは、幅広いアーキテクチャとパフォーマンスのペアを含み、堅牢で伝達可能な学習を促進する。
論文 参考訳(メタデータ) (2025-09-06T09:26:39Z) - Negative Matters: Multi-Granularity Hard-Negative Synthesis and Anchor-Token-Aware Pooling for Enhanced Text Embeddings [25.565372681837697]
クエリに類似するレベルが異なる多様な負のサンプルを生成するために,マルチグラニュラリティ・ハード負(MGH)合成フレームワークを導入する。
また,Anchor Token Aware(ATA)プーリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-31T13:24:48Z) - SyGra: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data [0.0]
大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-08-21T10:35:41Z) - Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models [20.767947974005168]
LLM Synthorは、ターゲットのマクロ統計と一致した現実的なマイクロレコードを生成するマクロ認識シミュレータである。
合成データセットを反復的に構築し、合成アグリゲーションとターゲットアグリゲーションの差を最小限に抑える。
強力な現実主義、統計的忠実さ、実用性を実現し、経済学、社会科学、都市研究に広く応用されている。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Beyond Inter-Item Relations: Dynamic Adaption for Enhancing LLM-Based Sequential Recommendation [83.87767101732351]
逐次リコメンデータシステム(SRS)は,ユーザの過去のインタラクションシーケンスに基づいて,ユーザが好む次の項目を予測する。
様々なAIアプリケーションにおける大規模言語モデル(LLM)の台頭に触発されて、LLMベースのSRSの研究が急増している。
我々は,大きめの粒度適応の上に構築された逐次レコメンデーションモデルであるDARecを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。