論文の概要: Summarize-Exemplify-Reflect: Data-driven Insight Distillation Empowers LLMs for Few-shot Tabular Classification
- arxiv url: http://arxiv.org/abs/2508.21561v1
- Date: Fri, 29 Aug 2025 12:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.036174
- Title: Summarize-Exemplify-Reflect: Data-driven Insight Distillation Empowers LLMs for Few-shot Tabular Classification
- Title(参考訳): Few-shot Tabular Classification のためのデータ駆動型インサイト蒸留エンパワース LLM
- Authors: Yifei Yuan, Jiatong Li, Weijia Zhang, Mohammad Aliannejadi, Evangelos Kanoulas, Renjun Hu,
- Abstract要約: InsightTabを紹介します。これは、分割・分散、簡単優先、反射学習の原則によって導かれる洞察蒸留フレームワークです。
提案手法は, LLMとデータモデリング技術との深い協調を通して, ルール要約, 戦略実証, インサイトリフレクションを統合する。
その結果,最先端手法よりも一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 31.422359959517763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show the promise of large language models (LLMs) for few-shot tabular classification but highlight challenges due to the variability in structured data. To address this, we propose distilling data into actionable insights to enable robust and effective classification by LLMs. Drawing inspiration from human learning processes, we introduce InsightTab, an insight distillation framework guided by principles of divide-and-conquer, easy-first, and reflective learning. Our approach integrates rule summarization, strategic exemplification, and insight reflection through deep collaboration between LLMs and data modeling techniques. The obtained insights enable LLMs to better align their general knowledge and capabilities with the particular requirements of specific tabular tasks. We extensively evaluate InsightTab on nine datasets. The results demonstrate consistent improvement over state-of-the-art methods. Ablation studies further validate the principle-guided distillation process, while analyses emphasize InsightTab's effectiveness in leveraging labeled data and managing bias.
- Abstract(参考訳): 近年の研究では,大規模言語モデル (LLM) が数ショットの表層分類に有効であることが示されているが,構造化データの変動性による課題を浮き彫りにしている。
そこで本研究では, LLMによるロバストかつ効果的な分類を実現するために, 実効性のある洞察にデータを蒸留することを提案する。
人間の学習プロセスからインスピレーションを得たInsightTabを紹介した。
提案手法は, LLMとデータモデリング技術との深い協調を通して, ルール要約, 戦略実証, インサイトリフレクションを統合する。
得られた洞察により、LLMは、一般的な知識と能力と特定の表形式のタスクの特定の要求とをより良く整合させることができる。
9つのデータセット上でInsightTabを広範囲に評価した。
その結果,最先端手法よりも一貫した改善が得られた。
アブレーション研究は、原則誘導蒸留プロセスの検証をさらに進め、分析はInsightTabがラベル付きデータを利用したりバイアスを管理したりする効果を強調している。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Improving LLM Group Fairness on Tabular Data via In-Context Learning [23.53624663038328]
大規模言語モデル(LLM)は、グループフェアネスを満たす予測、すなわち、グループ間で平等な結果を生成するのに失敗する。
本研究では,グループフェアネスを改善するための4つの経験的アプローチについて検討する。
本研究では,これらの手法が全体の性能を高く保ちながら,人口密度の向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-12-05T22:23:30Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - Small Models are LLM Knowledge Triggers on Medical Tabular Prediction [39.78560996984352]
小モデルを用いたシナジー学習による汎用的な自己プロンプト手法SERSALを提案する。
本研究は,SERSALが言語的プロンプト法に比べて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T17:35:52Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Controllable Data Augmentation for Few-Shot Text Mining with Chain-of-Thought Attribute Manipulation [35.33340453046864]
Chain-of-Thought Attribute Manipulation (CoTAM)は、既存の例から新しいデータを生成する新しいアプローチである。
我々は,(1)属性分解,(2)操作提案,(3)文の再構築という3つのステップで,テキストを直接編集するよう促すチェーン・オブ・シントを利用する。
論文 参考訳(メタデータ) (2023-07-14T00:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。