論文の概要: Does Prompt Design Impact Quality of Data Imputation by LLMs?
- arxiv url: http://arxiv.org/abs/2506.04172v1
- Date: Wed, 04 Jun 2025 17:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.486776
- Title: Does Prompt Design Impact Quality of Data Imputation by LLMs?
- Title(参考訳): LLMによるデータインプットのプロンプト設計は品質に影響を及ぼすか?
- Authors: Shreenidhi Srinivasan, Lydia Manikonda,
- Abstract要約: 本稿では,大規模言語モデルの文脈内学習機能を活用したトークン認識型データ計算手法を提案する。
2つのクラス不均衡なバイナリ分類データセットを用いてこのアプローチを検証し、計算の有効性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic synthetic tabular data presents a critical challenge in machine learning. It adds another layer of complexity when this data contain class imbalance problems. This paper presents a novel token-aware data imputation method that leverages the in-context learning capabilities of large language models. This is achieved through the combination of a structured group-wise CSV-style prompting technique and the elimination of irrelevant contextual information in the input prompt. We test this approach with two class-imbalanced binary classification datasets and evaluate the effectiveness of imputation using classification-based evaluation metrics. The experimental results demonstrate that our approach significantly reduces the input prompt size while maintaining or improving imputation quality compared to our baseline prompt, especially for datasets that are of relatively smaller in size. The contributions of this presented work is two-fold -- 1) it sheds light on the importance of prompt design when leveraging LLMs for synthetic data generation and 2) it addresses a critical gap in LLM-based data imputation for class-imbalanced datasets with missing data by providing a practical solution within computational constraints. We hope that our work will foster further research and discussions about leveraging the incredible potential of LLMs and prompt engineering techniques for synthetic data generation.
- Abstract(参考訳): リアルな合成表データを生成することは、機械学習において重要な課題である。
このデータにクラス不均衡の問題が含まれていると、さらに複雑さが増します。
本稿では,大規模言語モデルの文脈内学習機能を活用したトークン認識型データ計算手法を提案する。
これは、構造化されたグループワイドCSVスタイルのプロンプト技術と、入力プロンプトにおける無関係なコンテキスト情報の排除との組み合わせによって実現される。
2つのクラス不均衡なバイナリ分類データセットを用いてこのアプローチを検証し、分類に基づく評価指標を用いて計算の有効性を評価する。
実験結果から,本手法は入力プロンプトのサイズを比較的小さくするデータセットに対して,ベースラインプロンプトと比較して,インプット品質を維持・改善しながら,入力プロンプトサイズを著しく削減することが示された。
この論文のコントリビューションは2倍です。
1)合成データ生成にLLMを利用する場合のプロンプト設計の重要性に光を当てる。
2) LLMに基づくクラス不均衡データセットに対するデータ計算における重要なギャップに, 計算制約の中で現実的な解を提供することによって対処する。
我々は,LLMの驚くべき可能性を活用するためのさらなる研究と議論を促進し,合成データ生成のための技術技術の促進を期待する。
関連論文リスト
- RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。
大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T16:04:01Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。