論文の概要: From Input Perception to Predictive Insight: Modeling Model Blind Spots Before They Become Errors
- arxiv url: http://arxiv.org/abs/2509.20065v1
- Date: Wed, 24 Sep 2025 12:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.807772
- Title: From Input Perception to Predictive Insight: Modeling Model Blind Spots Before They Become Errors
- Title(参考訳): 入力知覚から予測洞察へ:モデルブラインドスポットをモデル化してエラーになる
- Authors: Maggie Mi, Aline Villavicencio, Nafise Sadat Moosavi,
- Abstract要約: 言語モデルは慣用的、図形的、文脈に敏感な入力に苦しむことが多い。
本稿では,トークンレベルの確率的特徴を仮定と一様情報密度仮説にインスパイアした,そのような故障を予測するための入力のみの手法を提案する。
- 参考スコア(独自算出の注目度): 15.200750247613362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often struggle with idiomatic, figurative, or context-sensitive inputs, not because they produce flawed outputs, but because they misinterpret the input from the outset. We propose an input-only method for anticipating such failures using token-level likelihood features inspired by surprisal and the Uniform Information Density hypothesis. These features capture localized uncertainty in input comprehension and outperform standard baselines across five linguistically challenging datasets. We show that span-localized features improve error detection for larger models, while smaller models benefit from global patterns. Our method requires no access to outputs or hidden activations, offering a lightweight and generalizable approach to pre-generation error prediction.
- Abstract(参考訳): 言語モデルは、しばしば慣用的、図形的、文脈に敏感な入力に苦しむ。
本稿では,トークンレベルの確率的特徴を仮定と一様情報密度仮説にインスパイアした,そのような故障を予測するための入力のみの手法を提案する。
これらの特徴は、入力理解における局所的不確実性を捉え、5つの言語的に困難なデータセットで標準ベースラインを上回ります。
より大規模なモデルでは,より小さなモデルではグローバルなパターンが有効であるのに対して,スパンローカライズされた機能はエラー検出を改善することを示す。
本手法では, 出力や隠れアクティベーションへのアクセスは不要であり, プリジェネレーション前のエラー予測に対する軽量で一般化可能なアプローチを提供する。
関連論文リスト
- Are vision language models robust to uncertain inputs? [5.249651874118556]
より新しい視覚言語モデルでは、従来のモデルに比べて頑健性が向上したが、それでも厳密な指示に従う傾向にあることを示す。
ImageNetのような自然なイメージでは、パイプラインの変更なしにこの制限を克服することができる。
モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-17T03:16:49Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Novice Type Error Diagnosis with Natural Language Models [15.678236006794165]
この研究は、型エラーローカライゼーションのための自然言語モデルについて検討する。
初期型エラー診断において,言語モデルに基づく手法は,従来の最先端データ駆動手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-07T16:40:53Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。