Fugu-MT 論文翻訳(概要): Matchmaker: Self-Improving Large Language Model Programs for Schema Matching

論文の概要: Matchmaker: Self-Improving Large Language Model Programs for Schema Matching

arxiv url: http://arxiv.org/abs/2410.24105v1
Date: Thu, 31 Oct 2024 16:34:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.924989
Title: Matchmaker: Self-Improving Large Language Model Programs for Schema Matching
Title（参考訳）: Matchmaker: スキーママッチングのための大規模言語モデルプログラムの自己改善
Authors: Nabeel Seedat, Mihaela van der Schaar,
Abstract要約: 本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
参考スコア（独自算出の注目度）: 60.23571456538149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Schema matching -- the task of finding matches between attributes across disparate data sources with different tables and hierarchies -- is critical for creating interoperable machine learning (ML)-ready data. Addressing this fundamental data-centric problem has wide implications, especially in domains like healthcare, finance and e-commerce -- but also has the potential to benefit ML models more generally, by increasing the data available for ML model training. However, schema matching is a challenging ML task due to structural/hierarchical and semantic heterogeneity between different schemas. Previous ML approaches to automate schema matching have either required significant labeled data for model training, which is often unrealistic or suffer from poor zero-shot performance. To this end, we propose Matchmaker - a compositional language model program for schema matching, comprised of candidate generation, refinement and confidence scoring. Matchmaker also self-improves in a zero-shot manner without the need for labeled demonstrations via a novel optimization approach, which constructs synthetic in-context demonstrations to guide the language model's reasoning process. Empirically, we demonstrate on real-world medical schema matching benchmarks that Matchmaker outperforms previous ML-based approaches, highlighting its potential to accelerate data integration and interoperability of ML-ready data.
Abstract（参考訳）: 異なるテーブルと階層を持つ異なるデータソース間の属性間のマッチを見つけるタスクであるスキーママッチングは、相互運用可能な機械学習(ML)対応データを作成する上で極めて重要である。この基本的なデータ中心の問題に対処することは、特に医療、金融、eコマースといった分野において幅広い意味を持つが、MLモデルのトレーニングに利用可能なデータを増やすことで、より一般的にMLモデルに恩恵をもたらす可能性がある。しかし、スキーママッチングは、異なるスキーマ間の構造的・階層的・意味的不均一性のため、困難なMLタスクである。スキーママッチングを自動化する従来のMLアプローチでは、モデルトレーニングに重要なラベル付きデータが必要であったり、非現実的であったり、ゼロショットのパフォーマンスが低かったりしていた。そこで本研究では,スキーママッチングのための合成言語モデルプログラムであるMatchmakerを提案する。また、Matchmakerは、新しい最適化アプローチを通じてラベル付けされたデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証し、ML対応データのデータ統合と相互運用性を加速する可能性を強調した。

関連論文リスト

AI-assisted JSON Schema Creation and Mapping [0.0]
本稿では,大規模言語モデル(LLM)と決定論的手法を組み合わせて,ユーザによる自然言語入力に基づく生成,修正,スキーママッピングを実現するハイブリッドアプローチを提案する。この作業は、非専門家のための構造化データモデリングとデータ統合に対する障壁を著しく減らします。
論文参考訳（メタデータ） (2025-08-07T09:27:10Z)
Schemora: schema matching via multi-stage recommendation and metadata enrichment using off-the-shelf llms [0.0]
SCHEMORAは、大規模言語モデルとハイブリッド検索技術を組み合わせたスキーママッチングフレームワークである。 MIMIC-OMOPベンチマークで評価され、HitRate@5で7.49%、HitRate@3で3.75%上昇した。
論文参考訳（メタデータ） (2025-07-18T21:50:36Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
SchemaAgent: A Multi-Agents Framework for Generating Relational Database Schema [35.57815867567431]
既存の取り組みは主に、カスタマイズされたルールや従来のディープラーニングモデルに基づいており、しばしばリレーショナルスキーマを生成する。高品質データベーススキーマの自動生成のための統一LLMベースのマルチエージェントフレームワークを提案する。我々は、様々な段階にわたる問題の正当性を特定するために、リフレクションとインスペクションのための専用の役割と、革新的なエラー検出と修正機構を組み込んだ。
論文参考訳（メタデータ） (2025-03-31T09:39:19Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Magneto: Combining Small and Large Language Models for Schema Matching [8.387623375871055]
小型言語モデル (SLM) は訓練データと大規模言語モデル (LLM) を必要とする。我々は、スキーママッチングのための費用効率が高く正確なソリューションであるMagnetoを提案する。
論文参考訳（メタデータ） (2024-12-11T08:35:56Z)
LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文参考訳（メタデータ） (2024-11-14T13:00:23Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文参考訳（メタデータ） (2024-03-03T17:14:40Z)
Adapting LLMs for Efficient, Personalized Information Retrieval: Methods and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文参考訳（メタデータ） (2023-11-21T02:01:01Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
Entity Matching using Large Language Models [3.7277730514654555]
本稿では, PLM ベースのマーカに代わる, タスク固有の訓練データ依存モデルとして, LLM (Generative Large Language Model) を用いて検討する。 GPT4は一致判定のための構造化された説明を生成でき、一致した誤りの原因を自動的に特定できることを示す。
論文参考訳（メタデータ） (2023-10-17T13:12:32Z)
Towards Better Modeling with Missing Data: A Contrastive Learning-based Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。現在のアプローチは、特徴計算とラベル予測に分類される。本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-18T13:16:24Z)
Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文参考訳（メタデータ） (2020-09-08T21:55:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。