論文の概要: QJoin: Transformation-aware Joinable Data Discovery Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.02444v1
- Date: Tue, 02 Dec 2025 06:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.738862
- Title: QJoin: Transformation-aware Joinable Data Discovery Using Reinforcement Learning
- Title(参考訳): QJoin: 強化学習を用いた変換対応の結合可能なデータディスカバリ
- Authors: Ning Wang, Sainyam Galhotra,
- Abstract要約: 私たちは、ジョインタスク間の変換戦略を学習し再利用する強化学習フレームワークであるQJoinを紹介します。
NYC+Chicagoの19,990のジョインタスクでは、再利用を使用することで、ランタイムを最大7.4%削減する(13,747データセット)。
- 参考スコア(独自算出の注目度): 11.61186748860627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering which tables in large, heterogeneous repositories can be joined and by what transformations is a central challenge in data integration and data discovery. Traditional join discovery methods are largely designed for equi-joins, which assume that join keys match exactly or nearly so. These techniques, while efficient in clean, well-normalized databases, fail in open or federated settings where identifiers are inconsistently formatted, embedded, or split across multiple columns. Approximate or fuzzy joins alleviate minor string variations but cannot capture systematic transformations. We introduce QJoin, a reinforcement-learning framework that learns and reuses transformation strategies across join tasks. QJoin trains an agent under a uniqueness-aware reward that balances similarity with key distinctiveness, enabling it to explore concise, high-value transformation chains. To accelerate new joins, we introduce two reuse mechanisms: (i) agent transfer, which initializes new policies from pretrained agents, and (ii) transformation reuse, which caches successful operator sequences for similar column clusters. On the AutoJoin Web benchmark (31 table pairs), QJoin achieves an average F1-score of 91.0%. For 19,990 join tasks in NYC+Chicago open datasets, Qjoin reduces runtime by up to 7.4% (13,747 s) by using reusing. These results demonstrate that transformation learning and reuse can make join discovery both more accurate and more efficient.
- Abstract(参考訳): 大規模なヘテロジニアスなレポジトリでどのテーブルを結合できるかを発見し、どのような変換がデータ統合とデータディスカバリにおける中心的な課題であるかを明らかにする。
従来の結合発見法は、結合鍵が正確に、あるいはほぼ一致していると仮定して、ほぼ同値な結合のために設計されている。
これらのテクニックは、クリーンでよく正規化されたデータベースでは効率的だが、識別子が一貫性のないフォーマット、組み込み、複数の列にまたがる分割で、オープンまたはフェデレーションされた設定で失敗する。
近似やファジィは小さな弦の変動を緩和するが、体系的な変換を捉えることはできない。
私たちは、ジョインタスク間の変換戦略を学習し再利用する強化学習フレームワークであるQJoinを紹介します。
QJoinは、類似性と重要な特徴のバランスをとるユニークな報酬の下でエージェントを訓練し、簡潔で高価値な変換チェーンを探索することができる。
新しい結合を加速するために、再利用メカニズムを2つ導入する。
一 被訓練者から新政策を初期化する代理人移転及び
(ii) トランスフォーメーションの再利用により、同様のカラムクラスタに対して演算子シーケンスをキャッシュする。
AutoJoin Webベンチマーク(31テーブルペア)では、QJoinの平均F1スコアが91.0%に達する。
NYC+Chicagoオープンデータセットの19,990のジョインタスクに対して、Qjoinはリユースを使用することで、ランタイムを最大7.4%(13,747 s)削減する。
これらの結果は、変換学習と再利用が結合発見をより正確かつ効率的にすることを示した。
関連論文リスト
- TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - QDER: Query-Specific Document and Entity Representations for Multi-Vector Document Re-Ranking [5.469844680867749]
本稿では,知識グラフのセマンティクスをマルチベクタモデルに統合することで,アプローチを統一するニューラルリグレードモデルQDERを紹介する。
QDERの重要なイノベーションは、クエリとドキュメントの関係のモデリングである。
まず、これらの微粒化表現を学習注意パターンで変換し、精密マッチングに慎重に選択した数学的操作を適用する。
論文 参考訳(メタデータ) (2025-10-13T16:31:06Z) - TableZoomer: A Collaborative Agent Framework for Large-scale Table Question Answering [26.00027389659854]
TableZoomerは、テーブル質問応答(TQA)タスクのためのプログラミングベースのエージェントフレームワークである。
2)列選択とエンティティリンクを通じてサブテーブルスキーマを動的に生成するクエリ対応テーブルズーム機構,(3)クエリを実行可能なコードに変換するプログラム・オブ・ソート(PoT)戦略により,数値幻覚を緩和する。
論文 参考訳(メタデータ) (2025-09-01T09:53:01Z) - Representation Quantization for Collaborative Filtering Augmentation [49.14087936092634]
本稿では,新しい2段階協調推薦アルゴリズムDQRecを提案する。
相互作用配列と属性から共同で振舞い特性を抽出することで特徴と均一な結合を増強する。
これらのセマンティックIDパターンを機能拡張とリンク拡張を通じてレコメンデーションプロセスに統合することにより、システムは潜伏したユーザと明示的なアイテムの両方の機能を強化します。
論文 参考訳(メタデータ) (2025-08-15T04:00:50Z) - A Query-Aware Multi-Path Knowledge Graph Fusion Approach for Enhancing Retrieval-Augmented Generation in Large Language Models [3.0748861313823]
QMKGFはクエリ対応マルチパス知識グラフフュージョンアプローチであり、検索拡張生成を促進する。
我々はプロンプトテンプレートを設計し、汎用LLMを用いてエンティティや関係を抽出する。
本稿では, ワンホップ関係, マルチホップ関係, 重要度に基づく関係を組み込んだマルチパスサブグラフ構築戦略を提案する。
論文 参考訳(メタデータ) (2025-07-07T02:22:54Z) - Snoopy: Effective and Efficient Semantic Join Discovery via Proxy Columns [26.053055662905283]
本稿では,コラムレベルのセマンティック結合発見フレームワークであるSnoopyを提案する。
4つの実世界のデータセットの実験では、SnoopyがSOTAカラムレベルのメソッドをRecall@25で16%、NDCG@25で10%上回っている。
論文 参考訳(メタデータ) (2025-02-24T03:48:00Z) - SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.60045548116584]
SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。
SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
論文 参考訳(メタデータ) (2024-12-09T04:56:43Z) - Learning Equivariant Segmentation with Instance-Unique Querying [47.52528819153683]
我々は、差別的なクエリ埋め込み学習を通じて、クエリベースのモデルを強化する新しいトレーニングフレームワークを考案した。
我々のアルゴリズムは、トレーニングデータセット全体から対応するインスタンスを検索するためにクエリを使用します。
4つの有名なクエリベースのモデルに加えて、トレーニングアルゴリズムは大きなパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2022-10-03T13:14:00Z) - Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment [80.55064790937092]
複数の予測に1つの基幹オブジェクトを割り当てる1対多の割り当ては、より高速なR-CNNやFCOSのような検出方法に成功している。
グループDETR(Group DETR)は、単純だが効率的なDECRトレーニング手法であり、一対多の割り当てのためのグループワイドな方法を導入する。
実験により、グループDETRはトレーニング収束を著しく高速化し、様々なDETRモデルの性能を向上させることが示された。
論文 参考訳(メタデータ) (2022-07-26T17:57:58Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。