Fugu-MT 論文翻訳(概要): TabGen-ICL: Residual-Aware In-Context Example Selection for Tabular Data Generation

論文の概要: TabGen-ICL: Residual-Aware In-Context Example Selection for Tabular Data Generation

arxiv url: http://arxiv.org/abs/2502.16414v1
Date: Sun, 23 Feb 2025 02:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.145005
Title: TabGen-ICL: Residual-Aware In-Context Example Selection for Tabular Data Generation
Title（参考訳）: TabGen-ICL: 単語データ生成のための残差認識型実例選択
Authors: Liancheng Fang, Aiwei Liu, Hengrui Zhang, Henry Peng Zou, Weizhi Zhang, Philip S. Yu,
Abstract要約: TabGen-ICLは反復的に動作し、現在生成されたサンプルと真のデータ分布の間の残余を表す実サンプルのサブセットを取得する。 5つの実世界のデータセットの実験により、TabGen-ICLはランダム選択戦略を著しく上回っていることが示された。
参考スコア（独自算出の注目度）: 38.08438831075632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language models (LLMs) have achieved encouraging results in tabular data generation. However, existing approaches require fine-tuning, which is computationally expensive. This paper explores an alternative: prompting a fixed LLM with in-context examples. We observe that using randomly selected in-context examples hampers the LLM's performance, resulting in sub-optimal generation quality. To address this, we propose a novel in-context learning framework: TabGen-ICL, to enhance the in-context learning ability of LLMs for tabular data generation. TabGen-ICL operates iteratively, retrieving a subset of real samples that represent the residual between currently generated samples and true data distributions. This approach serves two purposes: locally, it provides more effective in-context learning examples for the LLM in each iteration; globally, it progressively narrows the gap between generated and real data. Extensive experiments on five real-world tabular datasets demonstrate that TabGen-ICL significantly outperforms the random selection strategy. Specifically, it reduces the error rate by a margin of $3.5\%-42.2\%$ on fidelity metrics. We demonstrate for the first time that prompting a fixed LLM can yield high-quality synthetic tabular data. The code is provided in the \href{https://github.com/fangliancheng/TabGEN-ICL}{link}.
Abstract（参考訳）: 大規模言語モデル(LLM)は、表形式のデータ生成において奨励的な結果を得た。しかし、既存の手法では微調整が必要であり、計算コストがかかる。本稿では,文脈内例による固定LLMの促進という代替手法について検討する。ランダムに選択したインコンテキストの例を用いて,LLMの性能を損なう結果,サブ最適生成品質が得られた。そこで本研究では,表型データ生成のためのLLMの文脈内学習能力を高めるために,新しい文脈内学習フレームワークTabGen-ICLを提案する。 TabGen-ICLは反復的に動作し、現在生成されたサンプルと真のデータ分布の間の残余を表す実サンプルのサブセットを取得する。このアプローチは、各イテレーションにおいて、LLMに対してより効果的なコンテキスト内学習例を提供する、グローバルに、生成されたデータと実際のデータのギャップを徐々に狭める、という2つの目的を果たす。 5つの実世界の表付きデータセットに対する大規模な実験は、TabGen-ICLがランダム選択戦略を著しく上回ることを示した。具体的には、フィデリティの測定値において、エラーレートを3.5\%-42.2\%のマージンで削減する。固定LDMを誘導することで,高品質な合成表データが得られることを示す。コードは \href{https://github.com/fangliancheng/TabGEN-ICL}{link} で提供されている。

関連論文リスト

A Note on Statistically Accurate Tabular Data Generation Using Large Language Models [0.0]
この研究は、大規模言語モデルを利用して条件分布を推定する確率駆動的プロンプト手法を導入する。その結果,大規模言語モデルが生成するデータの統計的忠実度を高めるために,確率分布の促進の可能性を強調した。
論文参考訳（メタデータ） (2025-05-05T14:05:15Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models [15.603556124006479]
拡張性のあるTabICLのための検索拡張言語モデルを提案する。提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-02-05T13:16:41Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。