論文の概要: Embedding Retrofitting: Data Engineering for better RAG
- arxiv url: http://arxiv.org/abs/2601.15298v1
- Date: Tue, 06 Jan 2026 01:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.838495
- Title: Embedding Retrofitting: Data Engineering for better RAG
- Title(参考訳): 組込みリトロフィッティング: より良いRAGのためのデータエンジニアリング
- Authors: Anantha Sharma,
- Abstract要約: 埋め込み再構成は知識グラフ制約を用いて事前学習した単語ベクトルを調整し、ドメイン固有の検索を改善する。
再構成の有効性は知識グラフの品質に大きく依存しており、テキスト前処理に依存している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Embedding retrofitting adjusts pre-trained word vectors using knowledge graph constraints to improve domain-specific retrieval. However, the effectiveness of retrofitting depends critically on knowledge graph quality, which in turn depends on text preprocessing. This paper presents a data engineering framework that addresses data quality degradation from annotation artifacts in real-world corpora. The analysis shows that hashtag annotations inflate knowledge graph density, leading to creating spurious edges that corrupt the retrofitting objective. On noisy graphs, all retrofitting techniques produce statistically significant degradation ($-3.5\%$ to $-5.2\%$, $p<0.05$). After preprocessing, \acrshort{ewma} retrofitting achieves $+6.2\%$ improvement ($p=0.0348$) with benefits concentrated in quantitative synthesis questions ($+33.8\%$ average). The gap between clean and noisy preprocessing (10\%+ swing) exceeds the gap between algorithms (3\%), establishing preprocessing quality as the primary determinant of retrofitting success.
- Abstract(参考訳): 埋め込み再構成は知識グラフ制約を用いて事前学習した単語ベクトルを調整し、ドメイン固有の検索を改善する。
しかし、再適合の有効性は知識グラフの品質に大きく依存しており、テキスト前処理に依存している。
本稿では,実世界のコーパスにおけるアコースティックアーティファクトからのデータ品質劣化に対処するデータエンジニアリングフレームワークを提案する。
この分析によると、ハッシュタグアノテーションは知識グラフの密度を増大させ、その結果、不適合な目的を損なう突発的なエッジを生み出します。
ノイズの多いグラフでは、すべての再適合技術は統計的に重要な劣化(-3.5\%$から$-5.2\%$, $p<0.05$)をもたらす。
前処理後、'acrshort{ewma} refitting は、定量合成問題(+33.8\%$ average)に集中して、+6.2\%$改善(p=0.0348$)を達成する。
クリーンな前処理とノイズの多い前処理(10\%+スイング)のギャップはアルゴリズム間のギャップ(3\%)を超え、前処理品質が再適合の成功の第一決定要因となる。
関連論文リスト
- From Noisy to Native: LLM-driven Graph Restoration for Test-Time Graph Domain Adaptation [26.131084022911825]
本稿では,テスト時間グラフドメイン適応(TT-GDA)を生成グラフ復元問題として再編成する新しいフレームワークを提案する。
グラフ復元の有効性を確保するため,GRAILを提案する。
修復の質をさらに向上するため,特殊アライメントと信頼報酬によって指導される強化学習プロセスを導入する。
論文 参考訳(メタデータ) (2025-10-09T04:00:42Z) - Mitigating Over-Squashing in Graph Neural Networks by Spectrum-Preserving Sparsification [81.06278257153835]
本稿では,構造的ボトルネック低減とグラフ特性保存のバランスをとるグラフ再構成手法を提案する。
本手法は、疎性を維持しながら接続性を高めたグラフを生成し、元のグラフスペクトルを大半保存する。
論文 参考訳(メタデータ) (2025-06-19T08:01:00Z) - Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - Deep Manifold Graph Auto-Encoder for Attributed Graph Embedding [51.75091298017941]
本稿では,属性付きグラフデータに対する新しいDeep Manifold (Variational) Graph Auto-Encoder (DMVGAE/DMGAE)を提案する。
提案手法は,最先端のベースラインアルゴリズムを,一般的なデータセット間でのダウンストリームタスクの差を大きく越える。
論文 参考訳(メタデータ) (2024-01-12T17:57:07Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Augmentation Strategies for Learning with Noisy Labels [3.698228929379249]
ノイズラベル付き学習」問題に取り組むアルゴリズムについて,様々な拡張戦略を評価した。
ロスモデリングタスクと学習のための別のセットに拡張の1つのセットを使用することが最も効果的であることがわかります。
我々は,この拡張戦略を最先端技術に導入し,評価されたすべての騒音レベルにおける性能向上を実証する。
論文 参考訳(メタデータ) (2021-03-03T02:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。