論文の概要: MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML
- arxiv url: http://arxiv.org/abs/2509.06806v1
- Date: Mon, 08 Sep 2025 15:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.219604
- Title: MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML
- Title(参考訳): MachineLearningLM: In-Context MLをスケールした数百万の合成語予測タスクにおける言語モデルの継続
- Authors: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke,
- Abstract要約: 大規模言語モデル(LLM)は広い世界知識と強力な汎用推論能力を有する。
しかし彼らは、標準的な機械学習(ML)タスクに関する多くのコンテキスト内例から学ぶのに苦労している。
携帯型継続的事前学習フレームワークであるMachineLearningLMを紹介する。
- 参考スコア(独自算出の注目度): 9.979085091609624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) possess broad world knowledge and strong general-purpose reasoning ability, yet they struggle to learn from many in-context examples on standard machine learning (ML) tasks, that is, to leverage many-shot demonstrations purely via in-context learning (ICL) without gradient descent. We introduce MachineLearningLM, a portable continued-pretraining framework that equips a general-purpose LLM with robust in-context ML capability while preserving its general knowledge and reasoning for broader chat workflows. Our pretraining procedure synthesizes ML tasks from millions of structural causal models (SCMs), spanning shot counts up to 1,024. We begin with a random-forest teacher, distilling tree-based decision strategies into the LLM to strengthen robustness in numerical modeling. All tasks are serialized with a token-efficient prompt, enabling 3x to 6x more examples per context window and delivering up to 50x amortized throughput via batch inference. Despite a modest setup (Qwen-2.5-7B-Instruct with LoRA rank 8), MachineLearningLM outperforms strong LLM baselines (e.g., GPT-5-mini) by an average of about 15% on out-of-distribution tabular classification across finance, physics, biology, and healthcare domains. It exhibits a striking many-shot scaling law: accuracy increases monotonically as in-context demonstrations grow from 8 to 1,024. Without any task-specific training, it attains random-forest-level accuracy across hundreds of shots. General chat capabilities, including knowledge and reasoning, are preserved: it achieves 75.4% on MMLU.
- Abstract(参考訳): 大きな言語モデル(LLM)は、広い世界知識と強力な汎用推論能力を持っているが、標準機械学習(ML)タスクにおける多くのインコンテキストの例から学ぶのに苦労している。
MachineLearningLMは、汎用LLMと堅牢なインコンテキストML機能を備えた携帯型継続的事前学習フレームワークであり、汎用知識を保ち、より広範なチャットワークフローを推論する。
我々の事前訓練手順は、何百万もの構造因果モデル(SCM)からMLタスクを合成し、最大1,024枚のショットを分割する。
まず無作為な森林教師から始まり、木に基づく意思決定戦略をLLMに蒸留し、数値モデリングにおける堅牢性を強化する。
すべてのタスクはトークン効率のプロンプトでシリアライズされ、コンテキストウィンドウ毎に3倍から6倍のサンプルが可能になり、バッチ推論によって最大50倍のアモーライズされたスループットを提供する。
緩やかなセットアップ(Qwen-2.5-7B-Instruct with LoRA rank 8)にもかかわらず、MachineLearningLMは、財務、物理学、生物学、医療ドメインをまたいだアウト・オブ・ディストリビューションの表層分類において、強いLCMベースライン(例えばGPT-5-mini)を平均15%上回っている。
精度は、コンテキスト内デモが8から1,024に増加するにつれて単調に向上する。
タスク固有のトレーニングがなければ、何百ものショットでランダムなフォレストレベルの精度が得られる。
知識と推論を含む一般的なチャット機能は保存されており、MMLUで75.4%を達成している。
関連論文リスト
- An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - Catastrophic Forgetting in LLMs: A Comparative Analysis Across Language Tasks [0.0]
大規模言語モデル(LLM)は、かなり高度な自然言語処理(NLP)を持つ
本研究では,主要なNLUタスクに対する各種オープンソースLLMの連続的な微調整について検討する。
以上の結果から,Phi-3.5-miniのようなモデルでは,強い学習能力を維持しつつ,最小限の忘れを生じさせることが示唆された。
論文 参考訳(メタデータ) (2025-04-01T23:06:55Z) - Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting [11.926100290196828]
本稿では,受動的フィールド認識重み付けによる大規模言語モデルの実現により,あるバニラモデルの性能を向上させるフレームワークであるLanternを提案する。
実験では、バニラモデルCORECTとSDTがGPT-4またはLlama-3.1-405Bでランタンに配備された。
論文 参考訳(メタデータ) (2024-11-26T18:35:24Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning [31.110005898556892]
大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。
我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。
CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
論文 参考訳(メタデータ) (2023-12-14T13:03:13Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。