論文の概要: FLOWER: Flow-Oriented Entity-Relationship Tool
- arxiv url: http://arxiv.org/abs/2511.13357v1
- Date: Mon, 17 Nov 2025 13:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.230401
- Title: FLOWER: Flow-Oriented Entity-Relationship Tool
- Title(参考訳): FLOWER: フロー指向エンティティ関連ツール
- Authors: Dmitry Moskalev,
- Abstract要約: FLOWERは、処理のルーチンやリソース集約的な問題を排除した、最初の、ユニークなエンドツーエンドソリューションである。
組み込みの制約を自動的に検出し、動的サンプリングとロバストなデータ分析技術を使用して、独自の正確で必要な制約を作成し始める。
実験の結果,FLOWERは分布表現が2.4倍,制約学習が2.15倍の2.6倍のサンプリングに優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring relationships across data sources is a crucial optimization for entities recognition. Since databases can store big amount of information with synthetic and organic data, serving all quantity of objects correctly is an important task to deal with. However, the decision of how to construct entity relationship model is associated with human factor. In this paper, we present flow-oriented entity-relationship tool. This is first and unique end-to-end solution that eliminates routine and resource-intensive problems of processing, creating and visualizing both of explicit and implicit dependencies for prominent SQL dialects on-the-fly. Once launched, FLOWER automatically detects built-in constraints and starting to create own correct and necessary one using dynamic sampling and robust data analysis techniques. This approach applies to improve entity-relationship model and data storytelling to better understand the foundation of data and get unseen insights from DB sources using SQL or natural language. Evaluated on state-of-the-art STATS benchmark, experiments show that FLOWER is superior to reservoir sampling by 2.4x for distribution representation and 2.6x for constraint learning with 2.15x acceleration. For data storytelling, our tool archives 1.19x for accuracy enhance with 1.86x context decrease compare to LLM. Presented tool is also support 23 languages and compatible with both of CPU and GPU. Those results show that FLOWER can manage with real-world data a way better to ensure with quality, scalability and applicability for different use-cases.
- Abstract(参考訳): データソース間の関係を探索することは、エンティティ認識にとって重要な最適化である。
データベースは大量の情報を合成データや有機データで保存できるため、全てのオブジェクトを正しく処理することが重要な課題である。
しかしながら、エンティティ関係モデルの構築方法の決定は、ヒューマンファクターに関連付けられている。
本稿では,フロー指向のエンティティ・リレーショナル・ツールを提案する。
これは、処理、明示的および暗黙的な依存関係の両方をオンザフライで生成、視覚化する、ルーチンおよびリソース集約的な問題を排除した、最初の、ユニークなエンドツーエンドソリューションである。
一度起動すると、FLOWERは組み込みの制約を自動的に検出し、動的サンプリングとロバストなデータ分析技術を使用して、独自の正確で必要な制約を作成し始める。
このアプローチは、エンティティ関係モデルとデータストーリーテリングを改善して、データの基礎をよりよく理解し、SQLや自然言語を使ってDBソースから見当たらない洞察を得るために適用されます。
現状のSTATSベンチマークで評価したところ、FLOWERは分布表現に2.4倍、加速に2.15倍の制約学習に2.4倍、サンプリングに2.6倍の精度で優れていることが示された。
データストーリーテリングでは,精度が1.86倍の1.19倍,文脈が1.86倍の1.19倍の精度でアーカイブする。
プレゼンテーションツールは23言語をサポートし、CPUとGPUの両方と互換性がある。
これらの結果は、FLOWERが現実世界のデータで管理でき、異なるユースケースに対して品質、スケーラビリティ、適用性を確保することができることを示している。
関連論文リスト
- InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - CoddLLM: Empowering Large Language Models for Data Analytics [38.23203246023766]
大規模言語モデル(LLM)は、データ分析に革命をもたらす可能性がある。
我々は、Turbo後合成のための新しいデータレシピを公開した。
我々はMistralNeMo-12Bに基づく新しい基礎モデルであるCoddLLMをポストトレーニングする。
論文 参考訳(メタデータ) (2025-02-01T06:03:55Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [83.65386456026441]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがる100以上のデータ処理オペレータがバックアップするデータ処理システムである。
データ分析、合成、アノテーション、基礎モデルのポストトレーニングなど、より重要なタスクをサポートする。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。
本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文 参考訳(メタデータ) (2024-05-16T21:15:51Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。