Fugu-MT 論文翻訳(概要): An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions

論文の概要: An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions

arxiv url: http://arxiv.org/abs/2601.05009v1
Date: Thu, 08 Jan 2026 15:10:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 17:01:53.245929
Title: An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions
Title（参考訳）: 語彙変形下における大言語モデルのロバスト性に関する実証的研究
Authors: Avik Dutta, Harshit Nigam, Hosein Hasanbeig, Arjun Radhakrishna, Sumit Gulwani,
Abstract要約: 大規模言語モデル(LLM)は、他の標準表現の表計算データが意味的および構造的歪みを受けると失敗する。システムプロンプトを通じて明示的な事前情報を提供する場合のみ、モデルは推論戦略を部分的に調整し、いくつかの歪みを修正する。
参考スコア（独自算出の注目度）: 8.023379679609151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate how large language models (LLMs) fail when tabular data in an otherwise canonical representation is subjected to semantic and structural distortions. Our findings reveal that LLMs lack an inherent ability to detect and correct subtle distortions in table representations. Only when provided with an explicit prior, via a system prompt, do models partially adjust their reasoning strategies and correct some distortions, though not consistently or completely. To study this phenomenon, we introduce a small, expert-curated dataset that explicitly evaluates LLMs on table question answering (TQA) tasks requiring an additional error-correction step prior to analysis. Our results reveal systematic differences in how LLMs ingest and interpret tabular information under distortion, with even SoTA models such as GPT-5.2 model exhibiting a drop of minimum 22% accuracy under distortion. These findings raise important questions for future research, particularly regarding when and how models should autonomously decide to realign tabular inputs, analogous to human behavior, without relying on explicit prompts or tabular data pre-processing.
Abstract（参考訳）: 本研究では,大言語モデル (LLM) が,正規表現の表層データに意味的・構造的歪みがある場合,どのように失敗するかを考察する。その結果,LLMにはテーブル表現の微妙な歪みを検出・補正する固有の能力がないことがわかった。システムプロンプトを通じて明示的な事前情報を提供する場合のみ、モデルは推論戦略を部分的に調整し、いくつかの歪みを修正する。この現象を研究するために、我々は、テーブル質問応答(TQA)タスクにおいて、分析に先立って追加の誤り訂正ステップを必要とするLSMを明示的に評価する、専門家による小さなデータセットを導入する。 GPT-5.2モデルのようなSoTAモデルでさえ、歪み下での最小22%の精度の低下を示す。これらの発見は、特にモデルが明示的なプロンプトや表形式のデータ前処理に頼ることなく、人間の行動に類似した、表形式の入力を自律的に実現すべき時期と方法に関して、将来の研究にとって重要な疑問を提起する。

関連論文リスト

Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文参考訳（メタデータ） (2025-02-27T20:22:34Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文参考訳（メタデータ） (2024-03-29T14:41:21Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。