論文の概要: An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions
- arxiv url: http://arxiv.org/abs/2601.05009v1
- Date: Thu, 08 Jan 2026 15:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.245929
- Title: An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions
- Title(参考訳): 語彙変形下における大言語モデルのロバスト性に関する実証的研究
- Authors: Avik Dutta, Harshit Nigam, Hosein Hasanbeig, Arjun Radhakrishna, Sumit Gulwani,
- Abstract要約: 大規模言語モデル(LLM)は、他の標準表現の表計算データが意味的および構造的歪みを受けると失敗する。
システムプロンプトを通じて明示的な事前情報を提供する場合のみ、モデルは推論戦略を部分的に調整し、いくつかの歪みを修正する。
- 参考スコア(独自算出の注目度): 8.023379679609151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how large language models (LLMs) fail when tabular data in an otherwise canonical representation is subjected to semantic and structural distortions. Our findings reveal that LLMs lack an inherent ability to detect and correct subtle distortions in table representations. Only when provided with an explicit prior, via a system prompt, do models partially adjust their reasoning strategies and correct some distortions, though not consistently or completely. To study this phenomenon, we introduce a small, expert-curated dataset that explicitly evaluates LLMs on table question answering (TQA) tasks requiring an additional error-correction step prior to analysis. Our results reveal systematic differences in how LLMs ingest and interpret tabular information under distortion, with even SoTA models such as GPT-5.2 model exhibiting a drop of minimum 22% accuracy under distortion. These findings raise important questions for future research, particularly regarding when and how models should autonomously decide to realign tabular inputs, analogous to human behavior, without relying on explicit prompts or tabular data pre-processing.
- Abstract(参考訳): 本研究では,大言語モデル (LLM) が,正規表現の表層データに意味的・構造的歪みがある場合,どのように失敗するかを考察する。
その結果,LLMにはテーブル表現の微妙な歪みを検出・補正する固有の能力がないことがわかった。
システムプロンプトを通じて明示的な事前情報を提供する場合のみ、モデルは推論戦略を部分的に調整し、いくつかの歪みを修正する。
この現象を研究するために、我々は、テーブル質問応答(TQA)タスクにおいて、分析に先立って追加の誤り訂正ステップを必要とするLSMを明示的に評価する、専門家による小さなデータセットを導入する。
GPT-5.2モデルのようなSoTAモデルでさえ、歪み下での最小22%の精度の低下を示す。
これらの発見は、特にモデルが明示的なプロンプトや表形式のデータ前処理に頼ることなく、人間の行動に類似した、表形式の入力を自律的に実現すべき時期と方法に関して、将来の研究にとって重要な疑問を提起する。
関連論文リスト
- When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences [16.09906989518837]
狭い微調整はLLM活性化に強いバイアスをもたらし、微調整領域を理解するために解釈できることを示す。
これらのバイアスは、モデル差分法による単純なツールを使って見つけることができる。
これらの分析はLLMベースの解釈可能性エージェントを作成することによって重要な情報を含むことを示す。
論文 参考訳(メタデータ) (2025-10-14T19:05:59Z) - Format as a Prior: Quantifying and Analyzing Bias in LLMs for Heterogeneous Data [17.88854327331652]
大規模言語モデル(LLM)は、異種フォーマットからの処理情報を必要とするアプリケーションにますます採用されている。
本稿では, LLMにおけるフォーマットバイアスを調査し, 解析する試みについて述べる。
フォーマットバイアスを低減するための3つの今後の研究方向として、フォーマットのサニタイズと正規化によるデータ前処理の改善、注意再重み付けなどの推論時間介入の導入、フォーマットバランスの取れたトレーニングコーパスの開発を挙げる。
論文 参考訳(メタデータ) (2025-08-13T01:09:02Z) - Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。
本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。
テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - How Does Data Corruption Affect Natural Language Understanding Models? A
Study on GLUE datasets [4.645287693363387]
モデルが微調整されたり、破損したデータでテストされた場合、ほとんどのGLUEタスクのパフォーマンスは高いままである。
提案したデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する範囲を評価するための診断ツールとして利用することができる。
論文 参考訳(メタデータ) (2022-01-12T13:35:53Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。