Fugu-MT 論文翻訳(概要): Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data

論文の概要: Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data

arxiv url: http://arxiv.org/abs/2407.13765v2
Date: Wed, 31 Jul 2024 05:57:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 19:55:28.174381
Title: Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data
Title（参考訳）: 潜在因果探索:データ因果モデルによる因果探索の形式的視点
Authors: Charles Jin, Martin Rinard,
Abstract要約: 構造因果モデル(SCM)を用いた探索の形式的視点を開発する。我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
参考スコア（独自算出の注目度）: 3.376269351435396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language models (LMs) deliver increasing performance on a range of NLP tasks, probing classifiers have become an indispensable technique in the effort to better understand their inner workings. A typical setup involves (1) defining an auxiliary task consisting of a dataset of text annotated with labels, then (2) supervising small classifiers to predict the labels from the representations of a pretrained LM as it processed the dataset. A high probing accuracy is interpreted as evidence that the LM has learned to perform the auxiliary task as an unsupervised byproduct of its original pretraining objective. Despite the widespread usage of probes, however, the robust design and analysis of probing experiments remains a challenge. We develop a formal perspective on probing using structural causal models (SCM). Specifically, given an SCM which explains the distribution of tokens observed during training, we frame the central hypothesis as whether the LM has learned to represent the latent variables of the SCM. Empirically, we extend a recent study of LMs in the context of a synthetic grid-world navigation task, where having an exact model of the underlying causal structure allows us to draw strong inferences from the result of probing experiments. Our techniques provide robust empirical evidence for the ability of LMs to induce the latent concepts underlying text.
Abstract（参考訳）: 言語モデル(LM)は、様々なNLPタスクにおいてパフォーマンスが向上するにつれて、内部動作をよりよく理解するために、分類器の探索は必須の手法となっている。典型的な設定では、(1)ラベルに注釈付けされたテキストのデータセットからなる補助タスクを定義し、(2)データセットを処理する際に、事前訓練されたLMの表現からラベルを予測するための小さな分類器を監督する。高い探索精度は、LMが元の事前訓練対象の教師なし副産物として補助タスクを実行することを学習した証拠として解釈される。しかし、プローブが広く使われているにもかかわらず、探査実験の頑健な設計と分析は依然として課題である。構造因果モデル (SCM) を用いた探索の形式的視点を開発する。具体的には、トレーニング中に観測されたトークンの分布を説明するSCMを考慮し、LMがSCMの潜伏変数を表すことを学習したかどうかを中心仮説とする。実験により,本研究は,基礎となる因果構造の正確なモデルを持つことで,探索実験の結果から強い推論を導き出すことができる,合成グリッドワールドナビゲーションタスクの文脈における最近のLMの研究を拡張した。我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。

関連論文リスト

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文参考訳（メタデータ） (2026-03-03T18:48:15Z)
Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。テキスト内概念推論におけるLLMの内部処理について検討する。
論文参考訳（メタデータ） (2026-02-08T03:14:39Z)
Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units [34.05875226612676]
本稿では,MDA(Mechanistic Data Attribution)について紹介する。これは,インフルエンス関数を用いて,解釈可能なユニットを特定のトレーニングサンプルにトレースする,スケーラブルなフレームワークである。本研究は,少数の高影響サンプルを除去または増強する目的の介入が,解釈可能な頭部の出現を顕著に調節することを検証する。
論文参考訳（メタデータ） (2026-01-29T17:06:54Z)
Knowledge-Driven Hallucination in Large Language Models: An Empirical Study on Process Modeling [46.05103857535919]
解析的タスクにおける大規模言語モデルの実用性は、その膨大な事前訓練された知識に根ざしている。この能力は、私たちが知識駆動幻覚と呼ぶものに対して、重大なリスクをもたらします。本稿では,自動プロセスモデリングのタスクにおけるLCMの評価により,この現象を考察する。
論文参考訳（メタデータ） (2025-09-18T18:27:30Z)
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning [39.827685159198296]
破滅的な忘れ(CF)は、機械学習において重要な課題であり、モデルは新しいタスクを学ぶ際に学習した情報を忘れる。本研究はCFを様々な設定で探索し、モデル忘れは特定のトレーニングタスクとモデル自体の影響を受けていることを発見した。本稿では,FVを安定させ,それを忘れるために正規化手法を取り入れた新しい関数ベクトル誘導訓練手法を提案する。
論文参考訳（メタデータ） (2025-02-16T07:06:17Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。テキストを意味的に拡張する2つのプロンプト戦略を導入する。実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文参考訳（メタデータ） (2025-01-29T12:03:11Z)
Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-11-18T19:14:36Z)
What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する一般的な仮説の一つは、タスク選択によるICLの説明である。もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文参考訳（メタデータ） (2024-06-06T16:15:34Z)
The Common Stability Mechanism behind most Self-Supervised Learning Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文参考訳（メタデータ） (2024-02-22T20:36:24Z)
Understanding Self-Supervised Learning of Speech Representation via Invariance and Redundancy Reduction [0.45060992929802207]
自己教師付き学習(SSL)は、ラベルのないデータから柔軟な音声表現を学習するための有望なパラダイムとして登場した。本研究は,人間の知覚における冗長性低下の理論に触発されたSSL技術であるBarlow Twins(BT)を実証分析した。
論文参考訳（メタデータ） (2023-09-07T10:23:59Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。 AMPLIFYは,幅広いタスクに対して約10～25%の精度向上を実現している。
論文参考訳（メタデータ） (2023-05-19T04:46:04Z)
Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。このタスクにより、PLMは語彙意味情報を学習することができる。
論文参考訳（メタデータ） (2022-05-08T08:37:36Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。 DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文参考訳（メタデータ） (2021-04-05T03:58:30Z)
oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文参考訳（メタデータ） (2019-12-31T12:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。