論文の概要: EmbGen: Teaching with Reassembled Corpora
- arxiv url: http://arxiv.org/abs/2605.19394v1
- Date: Tue, 19 May 2026 05:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.147251
- Title: EmbGen: Teaching with Reassembled Corpora
- Title(参考訳): EmbGen: コーパスの再組み立てによる教育
- Authors: Arun K Lenin, Kai Rouse, Andrea Nicastro, Anna Leontjeva,
- Abstract要約: コーパスをエンティティ記述ペアに分解する合成データ生成パイプラインであるEmbGenを紹介する。
EmbGen を EntiGraph,InstructLab,Knowledge-Instruct に対して,多種多様な意味的不均一性のデータセット上で評価する。
- 参考スコア(独自算出の注目度): 0.300988853836121
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adapting small instruction-tuned models to specialized domains often relies on supervised fine-tuning (SFT) on curated instruction-response examples, which is expensive to collect at scale. Synthetic training examples generated by a teacher LLM from a domain corpus can reduce this cost, but existing pipelines can produce homogenized outputs and do not consistently capture cross-passage or cross-document dependencies. We introduce EmbGen, a synthetic data generation pipeline that decomposes a corpus into entity-description pairs, reassembles them using semantic structure inferred from embedding similarity, and then generates question-answer (QA) pairs via proximity, intra-cluster, and inter-cluster sampling with cluster-specialized system prompts. We evaluate EmbGen against EntiGraph, InstructLab and Knowledge-Instruct on three datasets of varied semantic heterogeneity, under fixed token budgets (5 and 20 million tokens). We use lexical overlap metrics, an LLM-as-a-judge rubric, and Binary Accuracy, a composed metric combining Factual Accuracy and Completeness for evaluation. EmbGen improves Binary Accuracy on the most heterogeneous dataset by 12.5% at 5M and 88.9% at 20M tokens budget, relative to the strongest baseline, while remaining competitive across other datasets with lower heterogeneity.
- Abstract(参考訳): 特定のドメインに小さな命令調整モデルを適用するには、大規模に収集するコストのかかる命令応答例を教師付き微調整(SFT)に頼ることが多い。
ドメインコーパスから教師 LLM が生成した合成トレーニング例は、このコストを削減することができるが、既存のパイプラインは均質化された出力を生成することができ、クロスパスやクロスドキュメントの依存関係を一貫してキャプチャしない。
コーパスをエンティティ記述ペアに分解する合成データ生成パイプラインであるEmbGenを,埋め込み類似性から推定される意味構造を用いて再組み立てし,クラスタ内の近接,クラスタ内,クラスタ間サンプリングによる問合せ(QA)ペアを生成する。
EmbGen を EntiGraph,InstructLab,Knowledge-Instruct に対して,固定トークン予算(5~2000万トークン)の下で,多種多様な意味的不均一性のデータセット上で評価した。
LLM-as-a-judge rubricと、Factual AccuracyとCompletenessを組み合わせた合成メトリクスであるBinary Accuracyを用いて評価を行った。
EmbGenは最もヘテロジニアスなデータセットのバイナリ精度を5Mで12.5%改善し、20Mトークンの予算で88.9%向上した。
関連論文リスト
- AGOP-IxG: A Gradient Covariance Filter for Local Feature Attribution on Tabular Data, with a Controlled Benchmark [0.0]
AGOP-IxG は、各サンプル毎の勾配を、上位の$K$ のランク付けされた平均勾配外積行列でプリ乗算する高速な帰属法である。
第1部では, 線形, スパース非線形, 相互作用に基づく3つの合成多クラス表計算タスクを構築し, サンプルあたりの接地トラス属性を解析的に, 数値的に導出可能である。
第2部では、ROARプロトコルを用いて、アダルト所得とクレジットカードのデフォルトに対するグローバルな忠実度を評価する。
論文 参考訳(メタデータ) (2026-05-15T07:45:35Z) - MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - IVGAE: Handling Incomplete Heterogeneous Data with a Variational Graph Autoencoder [4.935498694293104]
非完全不均一データの堅牢な計算のための変分グラフオートエンコーダである textbfIVGAE を提案する。
IVGAEは、サンプル-機能関係を表す二部グラフを構築し、グラフ表現学習を構造的依存関係のモデル化に適用する。
16の実世界のデータセットの実験によると、IVGAEは、MCAR、MAR、MNARの欠落シナリオに対して、RMSEと下流F1の一貫性のある改善を実現している。
論文 参考訳(メタデータ) (2025-11-27T05:14:50Z) - PairUni: Pairwise Training for Unified Multimodal Language Models [50.01064884121653]
統一視覚言語モデル(UVLM)は、単一のアーキテクチャ内で理解と生成の両方を実行する必要がある。
我々は、データを理解世代(UG)ペアに再編成する統合フレームワークであるPairUniを提案する。
提案手法は, 様々なUVLMのバランス改善を実現し, 高いUVLM RLベースラインを達成している。
論文 参考訳(メタデータ) (2025-10-29T16:47:02Z) - BiXSE: Improving Dense Retrieval via Probabilistic Graded Relevance Distillation [6.272555849379284]
BiXSE は2値のクロスエントロピーをグレードレバレンススコアより最適化するポイントワイズトレーニング手法である。
アノテーションと計算コストを削減して、強力なパフォーマンスを実現する。
BiXSEは、密度の高い検索モデルをトレーニングするための堅牢でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-09T02:15:17Z) - Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training [53.07879717463279]
textscDomain2Vecは任意のデータセットを複数のEmphmetaドメインの線形結合に分解する
textscDomain2Vecは、最小の計算オーバーヘッドでダウンストリームタスクのパフォーマンスを向上させるデータミックスを見つけるのに役立つ。
論文 参考訳(メタデータ) (2025-06-12T17:53:51Z) - SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。