論文の概要: Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion
- arxiv url: http://arxiv.org/abs/2410.14405v2
- Date: Thu, 31 Oct 2024 08:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:51.345721
- Title: Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion
- Title(参考訳): Fact Recall, Heuristics or Pure Guesswork : Fact Completionのための言語モデルの精密解釈
- Authors: Denitsa Saynova, Lovisa Hagström, Moa Johansson, Richard Johansson, Marco Kuhlmann,
- Abstract要約: 本研究では,LMが異なる振る舞いを示すことを期待できる4つの異なる予測シナリオについて検討する。
本稿では,各シナリオを例に,データセット構築のためのPrISMというモデル固有のレシピを提案する。
それぞれのシナリオに対してCTは異なる結果を生成するが、混合例の集合上の集約は、最強の計測信号によるシナリオの結果のみを表すことができる。
- 参考スコア(独自算出の注目度): 9.383571944693188
- License:
- Abstract: Previous interpretations of language models (LMs) miss important distinctions in how these models process factual information. For example, given the query "Astrid Lindgren was born in" with the corresponding completion "Sweden", no difference is made between whether the prediction was based on having the exact knowledge of the birthplace of the Swedish author or assuming that a person with a Swedish-sounding name was born in Sweden. In this paper, we investigate four different prediction scenarios for which the LM can be expected to show distinct behaviors. These scenarios correspond to different levels of model reliability and types of information being processed - some being less desirable for factual predictions. To facilitate precise interpretations of LMs for fact completion, we propose a model-specific recipe called PrISM for constructing datasets with examples of each scenario based on a set of diagnostic criteria. We apply a popular interpretability method, causal tracing (CT), to the four prediction scenarios and find that while CT produces different results for each scenario, aggregations over a set of mixed examples may only represent the results from the scenario with the strongest measured signal. In summary, we contribute tools for a more granular study of fact completion in language models and analyses that provide a more nuanced understanding of how LMs process fact-related queries.
- Abstract(参考訳): 言語モデル(LM)の以前の解釈は、これらのモデルが事実情報をどう処理するかという点において重要な違いを見逃している。
例えば、「Astrid Lindgren was born in」という問合せとそれに対応する「Sweden」が書かれたことを考えると、この予測はスウェーデン人の著者の生誕地に関する正確な知識に基づいていたのか、スウェーデン語で「Astrid Lindgren was born in」と推測された人物がスウェーデンで生まれたと仮定していたのかは区別されない。
本稿では,LMが異なる振る舞いを示すことを期待できる4つの異なる予測シナリオについて検討する。
これらのシナリオは、さまざまなレベルのモデルの信頼性と処理中の情報のタイプに対応します。
そこで本研究では,各シナリオを例に,一組の診断基準に基づいて構築するPrISMというモデル固有のレシピを提案する。
一般的な解釈可能性法である因果追跡法(CT)を4つの予測シナリオに適用し,CTが各シナリオに対して異なる結果を生成するのに対して,混合例の集合上のアグリゲーションは,最強測定信号を用いてシナリオからのみ結果を表すことができることを示す。
要約すると、我々は、言語モデルと分析におけるファクトコンプリートに関するよりきめ細かい研究に貢献し、LMがファクト関連クエリをどのように処理するかをよりきめ細やかな理解を提供する。
関連論文リスト
- Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - Explaining word embeddings with perfect fidelity: Case study in research impact prediction [0.0]
単語埋め込みを訓練したロジスティック回帰に基づく分類モデルのための自己モデルRated Entities (SMER)。
SMERは,テキスト中の個々の単語の予測平均と正確に一致するので,理論上は説明モデルと完全に一致していることを示す。
論文 参考訳(メタデータ) (2024-09-24T09:28:24Z) - Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。
カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。
本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-27T15:13:06Z) - PRobELM: Plausibility Ranking Evaluation for Language Models [12.057770969325453]
PRobELM(PRobELM)は、言語モデルがパラメトリック知識を通じてより妥当なシナリオを識別する能力を評価するために設計されたベンチマークである。
我々のベンチマークは、Wikidata編集履歴から算出したデータセットから構築され、評価されたモデルに対するトレーニングデータの時間的境界を整列するように調整されている。
論文 参考訳(メタデータ) (2024-04-04T21:57:11Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。