論文の概要: Semantic Integrity Constraints: Declarative Guardrails for AI-Augmented Data Processing Systems
- arxiv url: http://arxiv.org/abs/2503.00600v1
- Date: Sat, 01 Mar 2025 19:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.504862
- Title: Semantic Integrity Constraints: Declarative Guardrails for AI-Augmented Data Processing Systems
- Title(参考訳): 意味的統合性制約:AI強化データ処理システムのための宣言的ガードレール
- Authors: Alexander W. Lee, Justin Chan, Michael Fu, Nicolas Kim, Akshay Mehta, Deepti Raghavan, Ugur Cetintemel,
- Abstract要約: セマンティック・インテリティ・制約(SIC)を導入し、AI拡張データ処理システム内の意味演算子を制御・最適化する。
SICはリレーショナルモデルにシームレスに統合され、ユーザーは制約の共通クラスを指定できる。
我々の研究は、信頼できる高性能なAIデータ処理のための基盤となるフレームワークとしてSICを確立している。
- 参考スコア(独自算出の注目度): 39.23499993745249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of AI-augmented Data Processing Systems (DPSs) has introduced powerful semantic operators that extend traditional data management capabilities with LLM-based processing. However, these systems face fundamental reliability (a.k.a. trust) challenges, as LLMs can generate erroneous outputs, limiting their adoption in critical domains. Existing approaches to LLM constraints--ranging from user-defined functions to constrained decoding--are fragmented, imperative, and lack semantics-aware integration into query execution. To address this gap, we introduce Semantic Integrity Constraints (SICs), a novel declarative abstraction that extends traditional database integrity constraints to govern and optimize semantic operators within DPSs. SICs integrate seamlessly into the relational model, allowing users to specify common classes of constraints (e.g., grounding and soundness) while enabling query-aware enforcement and optimization strategies. In this paper, we present the core design of SICs, describe their formal integration into query execution, and detail our conception of grounding constraints, a key SIC class that ensures factual consistency of generated outputs. In addition, we explore novel enforcement mechanisms, combining proactive (constrained decoding) and reactive (validation and recovery) techniques to optimize efficiency and reliability. Our work establishes SICs as a foundational framework for trustworthy, high-performance AI-augmented data processing, paving the way for future research in constraint-driven optimizations, adaptive enforcement, and enterprise-scale deployments.
- Abstract(参考訳): AI強化データ処理システム(DPS)の出現は、従来のデータ管理機能をLLMベースの処理で拡張する強力なセマンティック演算子を導入した。
しかしながら、これらのシステムは、LLMが誤った出力を生成し、重要な領域での採用を制限するため、基本的な信頼性(信頼)の課題に直面している。
既存の LLM 制約へのアプローチ - ユーザ定義関数から制約付き復号化 – は断片化され,命令的であり,クエリ実行にセマンティクスを意識した統合が欠如している。
このギャップに対処するために,従来のデータベース整合性制約を拡張してDPS内のセマンティック演算子を制御・最適化する,新しい宣言的抽象化であるSemantic Integrity Constraints (SICs)を導入する。
SICはリレーショナルモデルにシームレスに統合され、クエリアウェアの実施と最適化の戦略を可能にしながら、制約の共通クラス(例えば、グラウンドとサウンドネス)を指定できる。
本稿では,SICの中核となる設計について述べるとともに,クエリ実行への形式的統合を記述し,生成した出力の事実整合性を保証する鍵となるSICクラスであるグラウンドリング制約の概念を詳述する。
さらに,能動性(制約付き復号化)と反応性(バリデーションとリカバリ)技術を組み合わせて,効率と信頼性を最適化する新しい実施機構について検討する。
我々の研究は、信頼できるハイパフォーマンスなAI強化データ処理のための基盤となるフレームワークとしてSICを確立し、制約駆動最適化、適応的実施、エンタープライズ規模のデプロイメントにおける将来の研究の道を開く。
関連論文リスト
- Federated In-Context Learning: Iterative Refinement for Improved Answer Quality [62.72381208029899]
In-context Learning (ICL) では、入力に提供される例を活用することで、パラメータを変更することなく、言語モデルで応答を生成することができる。
我々は,反復的協調プロセスを通じてICLを強化する汎用フレームワークであるFederated In-Context Learning (Fed-ICL)を提案する。
Fed-ICLは、クライアントと中央サーバ間のマルチラウンドインタラクションを活用することで、応答を徐々に洗練し、モデルパラメータを送信することなく、応答品質を向上させる。
論文 参考訳(メタデータ) (2025-06-09T05:33:28Z) - Engineering Trustworthy Machine-Learning Operations with Zero-Knowledge Proofs [1.7723990552388873]
Zero-Knowledge Proofs (ZKPs) は、検証済みの計算を通じて、機密性の高いモデルの詳細やデータを明らかにすることなく、要求の遵守を証明できる暗号化ソリューションを提供する。
我々は、AI検証と検証パイプラインにおけるアプリケーションに不可欠な5つの重要な特性(非対話性、透過的なセットアップ、標準表現、簡潔性、および後セキュリティ)を特定します。
論文 参考訳(メタデータ) (2025-05-26T15:39:11Z) - RedactOR: An LLM-Powered Framework for Automatic Clinical Data De-Identification [10.378433440829712]
構造化および非構造化の電子健康記録を識別するための完全に自動化されたフレームワークであるRedactorを提案する。
当社のフレームワークでは,インテリジェントルーティングやハイブリッドルール,LLMベースのアプローチなど,コスト効率の高いDe-ID戦略を採用している。
本稿では,保護されたエンティティの一貫した置換を保証するために,検索に基づくエンティティリラクシゼーション手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T21:13:18Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - Structured Prompting and Feedback-Guided Reasoning with LLMs for Data Interpretation [0.0]
大規模言語モデル(LLM)は、自然言語の理解とタスクの一般化において顕著な能力を示した。
本稿では、構造化されたプロンプトおよびフィードバック駆動型変換ロジック生成手法であるSTROT Frameworkを紹介する。
論文 参考訳(メタデータ) (2025-05-03T00:05:01Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Simplifying Data Integration: SLM-Driven Systems for Unified Semantic Queries Across Heterogeneous Databases [0.0]
本稿では,Small Language Model(SLM)をベースとした,軽量な検索・拡張生成(RAG)とセマンティック・アウェアなデータ構造化の進歩を相乗化するシステムを提案する。
SLMを用いた構造化データ抽出にMiniRAGのセマンティック・アウェア・ヘテロジニアス・グラフインデックスとトポロジ・エンハンス・検索を統合し,従来の手法の限界に対処する。
実験結果は精度と効率性において優れた性能を示し、教師なし評価指標としてのセマンティックエントロピーの導入はモデルの不確実性に対する堅牢な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T03:28:03Z) - GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics [9.549568621873386]
GateLensは、自動車分野のデータ分析のためのLLMベースのシステムである。
遅くて不透明でメンテナンスにコストがかかる従来のマルチエージェントや計画ベースのシステムとは異なり、GateLensはスピード、透明性、信頼性を強調している。
論文 参考訳(メタデータ) (2025-03-27T17:48:32Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Measuring and Mitigating Constraint Violations of In-Context Learning
for Utterance-to-API Semantic Parsing [15.957744324299869]
本研究では,タスク指向のセマンティック解析における制約違反を計測,解析,緩和する。
SRD(Semantic-Retrieval of Demonstrations)とAPI-Aware Constrained Decoding(API-CD)の2つの緩和戦略について検討する。
実験の結果、これらの戦略は、制約違反の低減と、生成されたAPI呼び出しの品質向上に有効であるが、実装の複雑さとレイテンシを考慮すると、慎重に検討する必要があることがわかった。
論文 参考訳(メタデータ) (2023-05-24T16:50:36Z) - Learning to Limit Data Collection via Scaling Laws: Data Minimization
Compliance in Practice [62.44110411199835]
我々は機械学習法における文献に基づいて、データとシステム性能を結びつけるデータ解釈に基づく収集を制限するフレームワークを提案する。
我々は、性能曲線微分に基づくデータ最小化基準を定式化し、有効かつ解釈可能な分数法法技術を提供する。
論文 参考訳(メタデータ) (2021-07-16T19:59:01Z) - Teaching the Old Dog New Tricks: Supervised Learning with Constraints [18.88930622054883]
機械学習に制約サポートを追加することは、データ駆動型AIシステムにおいて際立った問題に対処する可能性がある。
既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。
そこで本研究では,教師付きML手法に対する制約満足度を,最先端制約解決器の直接利用により,それぞれ異なる,補完的な制約満足度に基づく戦略について検討する。
論文 参考訳(メタデータ) (2020-02-25T09:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。