論文の概要: Data Kernel Perspective Space Performance Guarantees for Synthetic Data from Transformer Models
- arxiv url: http://arxiv.org/abs/2602.05106v1
- Date: Wed, 04 Feb 2026 22:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.65303
- Title: Data Kernel Perspective Space Performance Guarantees for Synthetic Data from Transformer Models
- Title(参考訳): 変圧器モデルからの合成データに対するデータカーネルパースペクティブ空間性能保証
- Authors: Michael Browder, Kevin Duh, J. David Harris, Vince Lyzinski, Paul McNamee, Youngser Park, Carey E. Priebe, Peter Viechnicki,
- Abstract要約: トランスフォーマーモデルは、データ不足の問題を軽減するためにますます使われています。
モデルはブラックボックスであるため、合成データの特性を予測するのは難しい。
本稿では,DKPSの性能保証が下流タスクの性能を解明する方法について述べる。
- 参考スコア(独自算出の注目度): 17.09971447043747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scarcity of labeled training data remains the long pole in the tent for building performant language technology and generative AI models. Transformer models -- particularly LLMs -- are increasingly being used to mitigate the data scarcity problem via synthetic data generation. However, because the models are black boxes, the properties of the synthetic data are difficult to predict. In practice it is common for language technology engineers to 'fiddle' with the LLM temperature setting and hope that what comes out the other end improves the downstream model. Faced with this uncertainty, here we propose Data Kernel Perspective Space (DKPS) to provide the foundation for mathematical analysis yielding concrete statistical guarantees for the quality of the outputs of transformer models. We first show the mathematical derivation of DKPS and how it provides performance guarantees. Next we show how DKPS performance guarantees can elucidate performance of a downstream task, such as neural machine translation models or LLMs trained using Contrastive Preference Optimization (CPO). Limitations of the current work and future research are also discussed.
- Abstract(参考訳): ラベル付きトレーニングデータの多さは、パフォーマンス言語技術と生成AIモデルを構築するためのテントの長い柱のままだ。
トランスフォーマーモデル(特にLSM)は、合成データ生成によるデータ不足問題を軽減するために、ますます利用されている。
しかし、モデルがブラックボックスであるため、合成データの特性を予測することは困難である。
実際には、言語技術者がLLMの温度設定に「適合」し、もう一方の端から出てくるものが下流モデルを改善することを願うことが一般的である。
この不確実性に直面したデータカーネル・パースペクティブ・スペース(DKPS)は,変換器モデルの出力の品質に関する具体的な統計的保証を得る数学的解析の基礎を提供する。
まず、DKPSの数学的導出と性能保証の方法を示す。
次に、DKPSの性能保証が、ニューラルネットワーク翻訳モデルやコントラスト優先最適化(CPO)を用いて訓練されたLLMなどの下流タスクのパフォーマンスを解明する方法について述べる。
現在の研究と今後の研究の限界についても論じる。
関連論文リスト
- Model Inversion with Layer-Specific Modeling and Alignment for Data-Free Continual Learning [19.12792297140574]
継続的な学習は、以前のタスクのパフォーマンスを維持しながら、一連のタスクでモデルを漸進的にトレーニングすることを目的としています。
データの保存と再生は、プライバシやセキュリティ上の制約によって不可能になることが多い。
単層最適化における高速収束にインスパイアされたPMI(Per-layer Model Inversion)を提案する。
論文 参考訳(メタデータ) (2025-10-30T09:58:48Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。
EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文 参考訳(メタデータ) (2025-06-04T02:11:54Z) - PIGPVAE: Physics-Informed Gaussian Process Variational Autoencoders [42.8983261737774]
本稿では,物理制約を組み込んでデータから学習し,性能を向上させる新しい生成モデルを提案する。
生成過程に物理モデルを組み込むことで、VAEアーキテクチャを拡張し、基礎となるダイナミクスをより効果的に捉えることができる。
我々はPIGPVAEが観測された分布を超えて現実的なサンプルを作成できることを示した。
論文 参考訳(メタデータ) (2025-05-25T21:12:01Z) - Shifting AI Efficiency From Model-Centric to Data-Centric Compression [67.45087283924732]
AI研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と私たちは主張する。
データ中心圧縮は、モデルトレーニングや推論中に処理されたデータのボリュームを直接圧縮することで、AI効率を向上させる。
我々の研究は、AIの効率性に関する新たな視点を提供し、既存の取り組みを合成し、コンテキスト長の増大によって引き起こされる課題に対処するためにイノベーションを触媒することを目的としています。
論文 参考訳(メタデータ) (2025-05-25T13:51:17Z) - Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。
大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T16:04:01Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。