Fugu-MT 論文翻訳(概要): Selecting Walk Schemes for Database Embedding

論文の概要: Selecting Walk Schemes for Database Embedding

arxiv url: http://arxiv.org/abs/2401.11215v1
Date: Sat, 20 Jan 2024 11:39:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 17:32:45.892725
Title: Selecting Walk Schemes for Database Embedding
Title（参考訳）: データベース埋め込みのためのウォークスキームの選択
Authors: Yuval Lev Lubarsky, Jan T\"onshoff, Martin Grohe, Benny Kimelfeld
Abstract要約: 関係データベースのコンポーネントの埋め込みについて検討する。我々は、動的データベース用に設計された最近のFoRWaRDアルゴリズムに焦点を当てる。いくつかの情報的ウォークスキームに焦点をあてることで,品質を維持しつつ,埋め込みをはるかに高速に行うことができることを示す。
参考スコア（独自算出の注目度）: 6.7609045625714925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machinery for data analysis often requires a numeric representation of the input. Towards that, a common practice is to embed components of structured data into a high-dimensional vector space. We study the embedding of the tuples of a relational database, where existing techniques are often based on optimization tasks over a collection of random walks from the database. The focus of this paper is on the recent FoRWaRD algorithm that is designed for dynamic databases, where walks are sampled by following foreign keys between tuples. Importantly, different walks have different schemas, or "walk schemes", that are derived by listing the relations and attributes along the walk. Also importantly, different walk schemes describe relationships of different natures in the database. We show that by focusing on a few informative walk schemes, we can obtain tuple embedding significantly faster, while retaining the quality. We define the problem of scheme selection for tuple embedding, devise several approaches and strategies for scheme selection, and conduct a thorough empirical study of the performance over a collection of downstream tasks. Our results confirm that with effective strategies for scheme selection, we can obtain high-quality embeddings considerably (e.g., three times) faster, preserve the extensibility to newly inserted tuples, and even achieve an increase in the precision of some tasks.
Abstract（参考訳）: データ解析の機械はしばしば入力の数値表現を必要とする。そのために、構造化データのコンポーネントを高次元ベクトル空間に埋め込むのが一般的である。既存の手法がデータベースからのランダムウォークの集合体上で最適化タスクに基づいている場合が多い関係データベースのタプルの埋め込みについて検討する。本稿では、動的データベース用に設計された最近のFoRWaRDアルゴリズムに着目し、タプル間の外部キーを追従することでウォーキングをサンプリングする。重要なことに、異なるウォークには異なるスキーマ、またはウォークスキームがあり、ウォークに沿う関係と属性をリストアップすることで導かれる。また、異なるウォークスキームは、データベース内の異なる性質の関係を記述する。いくつかの情報的歩行方式に焦点をあてることで,品質を維持しつつ,タプル埋め込みを著しく高速化できることを示す。タプル埋め込みのためのスキーム選択の問題を定義し,スキーム選択のためのいくつかのアプローチと戦略を考案し,下流タスクの集合に対するパフォーマンスに関する徹底的な実証研究を行う。その結果,スキーム選択の効果的な戦略により,より高速に(例えば3倍)高品質な埋め込みが得られ,新たに挿入されたタプルの拡張性が保たれ,タスクの精度も向上することが確認できた。

関連論文リスト

Hippasus: Effective and Efficient Automatic Feature Augmentation for Machine Learning Tasks on Relational Data [3.0714301039424776]
基本テーブルと候補テーブルを接続する有望なジョインパスを特定し、これらのジョインを実行して、拡張データを実体化し、その結果から最も有意義な機能を選択する。 Hippasusという,3つの重要なコントリビューションを通じて両方の目標を達成するモジュール型フレームワークを紹介します。公開データセットに対する実験結果から,Hippasusは最先端のベースラインに対して,機能拡張の精度を最大26.8%向上することが示された。
論文参考訳（メタデータ） (2026-02-02T12:21:24Z)
Gradient-Based Join Ordering [0.532836690371986]
ジョイン順序付けは、データベースクエリのジョインを評価する最も効率的なシーケンスを選択する問題である。従来のアプローチでは、コストモデルによってガイドされたバイナリツリーを個別に実行時に検索する、という問題があった。コストモデルが異なる場合、クエリ計画がソフトな隣接行列に連続的に緩和可能であることを示す。学習したグラフニューラルネットワークをコストモデルとして使用することにより、この勾配に基づくアプローチが、同等で低コストなプランを見つけることができることを示す。
論文参考訳（メタデータ） (2025-11-18T13:24:28Z)
Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-04-15T17:35:56Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。本稿では,新しい汎用能動学習法(GEAL)を提案する。提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文参考訳（メタデータ） (2021-12-15T08:35:28Z)
Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。 1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-11T03:25:25Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)
Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文参考訳（メタデータ） (2020-10-10T14:03:20Z)
A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文参考訳（メタデータ） (2020-09-10T15:45:34Z)
Monotonic Cardinality Estimation of Similarity Selection: A Deep Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文参考訳（メタデータ） (2020-02-15T20:22:51Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。