Fugu-MT 論文翻訳(概要): Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion

論文の概要: Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion

arxiv url: http://arxiv.org/abs/2410.14405v1
Date: Fri, 18 Oct 2024 12:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.458876
Title: Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion
Title（参考訳）: Fact Recall, Heuristics or Pure Guesswork : Fact Completionのための言語モデルの精密解釈
Authors: Denitsa Saynova, Lovisa Hagström, Moa Johansson, Richard Johansson, Marco Kuhlmann,
Abstract要約: 本研究では,LMが異なる振る舞いを示すことを期待できる4つの異なる予測シナリオについて検討する。本稿では,各シナリオを例に,データセット構築のためのPrISMというモデル固有のレシピを提案する。それぞれのシナリオに対してCTは異なる結果を生成するが、混合例の集合上の集約は、最強の計測信号によるシナリオの結果のみを表すことができる。
参考スコア（独自算出の注目度）: 9.383571944693188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Previous interpretations of language models (LMs) miss important distinctions in how these models process factual information. For example, given the query "Astrid Lindgren was born in" with the corresponding completion "Sweden", no difference is made between whether the prediction was based on having the exact knowledge of the birthplace of the Swedish author or assuming that a person with a Swedish-sounding name was born in Sweden. In this paper, we investigate four different prediction scenarios for which the LM can be expected to show distinct behaviors. These scenarios correspond to different levels of model reliability and types of information being processed - some being less desirable for factual predictions. To facilitate precise interpretations of LMs for fact completion, we propose a model-specific recipe called PrISM for constructing datasets with examples of each scenario based on a set of diagnostic criteria. We apply a popular interpretability method, causal tracing (CT), to the four prediction scenarios and find that while CT produces different results for each scenario, aggregations over a set of mixed examples may only represent the results from the scenario with the strongest measured signal. In summary, we contribute tools for a more granular study of fact completion in language models and analyses that provide a more nuanced understanding of how LMs process fact-related queries.
Abstract（参考訳）: 言語モデル(LM)の以前の解釈は、これらのモデルが事実情報をどう処理するかという点において重要な違いを見逃している。例えば、「Astrid Lindgren was born in」という問合せとそれに対応する「Sweden」が書かれたことを考えると、この予測はスウェーデン人の著者の生誕地に関する正確な知識に基づいていたのか、スウェーデン語で「Astrid Lindgren was born in」と推測された人物がスウェーデンで生まれたと仮定していたのかは区別されない。本稿では,LMが異なる振る舞いを示すことを期待できる4つの異なる予測シナリオについて検討する。これらのシナリオは、さまざまなレベルのモデルの信頼性と処理中の情報のタイプに対応します。そこで本研究では,各シナリオを例に,一組の診断基準に基づいて構築するPrISMというモデル固有のレシピを提案する。一般的な解釈可能性法である因果追跡法(CT)を4つの予測シナリオに適用し,CTが各シナリオに対して異なる結果を生成するのに対して,混合例の集合上のアグリゲーションは,最強測定信号を用いてシナリオからのみ結果を表すことができることを示す。要約すると、我々は、言語モデルと分析におけるファクトコンプリートに関するよりきめ細かい研究に貢献し、LMがファクト関連クエリをどのように処理するかをよりきめ細やかな理解を提供する。

関連論文リスト

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Unraveling Token Prediction Refinement and Identifying Essential Layers in Language Models [0.0]
本研究の目的は,大規模言語モデル (LLM) が内部処理によるトークン予測を反復的に洗練することである。我々は,LLMが入力コンテキストから情報にアクセスし活用する方法,および関連する情報の位置がモデルのトークン予測改善プロセスにどのように影響するかに着目した。
論文参考訳（メタデータ） (2025-01-25T03:34:15Z)
Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文参考訳（メタデータ） (2024-10-07T14:39:45Z)
Explaining word embeddings with perfect fidelity: Case study in research impact prediction [0.0]
単語埋め込みを訓練したロジスティック回帰に基づく分類モデルのための自己モデルRated Entities (SMER)。 SMERは,テキスト中の個々の単語の予測平均と正確に一致するので,理論上は説明モデルと完全に一致していることを示す。
論文参考訳（メタデータ） (2024-09-24T09:28:24Z)
Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-27T15:13:06Z)
PRobELM: Plausibility Ranking Evaluation for Language Models [12.057770969325453]
PRobELM(PRobELM)は、言語モデルがパラメトリック知識を通じてより妥当なシナリオを識別する能力を評価するために設計されたベンチマークである。我々のベンチマークは、Wikidata編集履歴から算出したデータセットから構築され、評価されたモデルに対するトレーニングデータの時間的境界を整列するように調整されている。
論文参考訳（メタデータ） (2024-04-04T21:57:11Z)
A Hypothesis-Driven Framework for the Analysis of Self-Rationalising Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。結果のモデルはGPT-3.5と強い類似性は示さない。今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文参考訳（メタデータ） (2024-02-07T12:26:12Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。標準共形予測は厳密で統計的に保証された予測セットを生成する。我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文参考訳（メタデータ） (2023-06-16T21:55:08Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
Are Representations Built from the Ground Up? An Empirical Examination of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文参考訳（メタデータ） (2022-10-07T14:21:30Z)
An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文参考訳（メタデータ） (2022-07-28T08:28:09Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Explaining Question Answering Models through Text Generation [42.36596190720944]
大規模な事前学習言語モデル(LM)は、常識と世界知識を必要とするタスクを微調整するときに驚くほどうまく機能することが示されている。エンドツーエンドのアーキテクチャで正しい予測ができるような、LMの知識が何であるかを説明するのは難しい。エンド・ツー・エンドのアーキテクチャに匹敵するパフォーマンスに達するタスクをいくつか示します。
論文参考訳（メタデータ） (2020-04-12T09:06:46Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。