論文の概要: Robustness is Important: Limitations of LLMs for Data Fitting
- arxiv url: http://arxiv.org/abs/2508.19563v2
- Date: Fri, 29 Aug 2025 13:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 13:41:09.936872
- Title: Robustness is Important: Limitations of LLMs for Data Fitting
- Title(参考訳): ロバスト性 - データフィッティングのためのLLMの制限
- Authors: Hejia Liu, Mochen Yang, Gediminas Adomavicius,
- Abstract要約: 大規模言語モデル(LLM)は幅広い設定に適用されている。
データフィッティングにLLMを使うことの重大な脆弱性を特定する。
変数名を変更することで、特定の設定で予測エラーのサイズを最大82%縮小することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are being applied in a wide array of settings, well beyond the typical language-oriented use cases. In particular, LLMs are increasingly used as a plug-and-play method for fitting data and generating predictions. Prior work has shown that LLMs, via in-context learning or supervised fine-tuning, can perform competitively with many tabular supervised learning techniques in terms of predictive performance. However, we identify a critical vulnerability of using LLMs for data fitting -- making changes to data representation that are completely irrelevant to the underlying learning task can drastically alter LLMs' predictions on the same data. For example, simply changing variable names can sway the size of prediction error by as much as 82% in certain settings. Such prediction sensitivity with respect to task-irrelevant variations manifests under both in-context learning and supervised fine-tuning, for both close-weight and open-weight general-purpose LLMs. Moreover, by examining the attention scores of an open-weight LLM, we discover a non-uniform attention pattern: training examples and variable names/values which happen to occupy certain positions in the prompt receive more attention when output tokens are generated, even though different positions are expected to receive roughly the same attention. This partially explains the sensitivity in the presence of task-irrelevant variations. We also consider a state-of-the-art tabular foundation model (TabPFN) trained specifically for data fitting. Despite being explicitly designed to achieve prediction robustness, TabPFN is still not immune to task-irrelevant variations. Overall, despite LLMs' impressive predictive capabilities, currently they lack even the basic level of robustness to be used as a principled data-fitting tool.
- Abstract(参考訳): 大きな言語モデル(LLM)は、一般的な言語指向のユースケースを超えて、幅広い設定で適用されています。
特に、LLMはデータを取り付けて予測を生成するためのプラグ・アンド・プレイ法として、ますます使われている。
従来の研究によると、LLMは文脈内学習や教師付き微調整を通じて、予測性能の点で多くの表付き教師付き学習技術と競争的に機能する。
しかし、データフィッティングにLLMを使うことの致命的な脆弱性を識別する -- 基礎となる学習タスクとは全く無関係なデータ表現の変更は、LLMの予測を同じデータで劇的に変更する可能性がある。
例えば、変数名の変更は特定の設定で最大82%の精度で予測エラーのサイズを縮めることができる。
このようなタスク非関連変動に対する予測感度は、近重量LLMとオープンウェイト汎用LLMの両方に対して、コンテキスト内学習と教師付き微調整の両方で現れる。
さらに,オープンウェイトLDMの注意点を調べることで,異なる位置がほぼ同じ注意を受けることを期待されても,出力トークンが生成されると,プロンプト内の特定の位置を占めるような訓練例や変数名/値がより注目されるという,一様でない注意パターンを発見する。
これは、タスク非関連なバリエーションが存在する場合の感度を部分的に説明します。
また、データフィッティングに特化して訓練された最先端の表層基礎モデル(TabPFN)についても検討する。
予測ロバスト性を達成するために明示的に設計されたにもかかわらず、TabPFNは依然としてタスク非関連なバリエーションに免疫がない。
全体として、LLMの印象的な予測機能にもかかわらず、現時点では、原則化されたデータ適合ツールとして使用される基本レベルの堅牢性さえも欠如している。
関連論文リスト
- Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models [21.10890310571397]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
この研究は、トレーニング中に言語モデルがデータセットを見たかどうかを評価するためのさまざまなテクニックを導入している。
次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-04-09T10:58:21Z) - Small Models are LLM Knowledge Triggers on Medical Tabular Prediction [39.78560996984352]
小モデルを用いたシナジー学習による汎用的な自己プロンプト手法SERSALを提案する。
本研究は,SERSALが言語的プロンプト法に比べて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T17:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。