論文の概要: Causal Interventions Reveal Shared Structure Across English Filler-Gap Constructions
- arxiv url: http://arxiv.org/abs/2505.16002v1
- Date: Wed, 21 May 2025 20:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.901088
- Title: Causal Interventions Reveal Shared Structure Across English Filler-Gap Constructions
- Title(参考訳): 英語フィラーギャップ構造における因果干渉の共有構造
- Authors: Sasha Boguraev, Christopher Potts, Kyle Mahowald,
- Abstract要約: 大言語モデル (LLMs) は、文法理論を発展させようとする言語学者の強力な証拠源として登場した。
本稿では, LLMに適用された因果解釈可能性法が, これらの証拠の価値を大幅に向上させることができることを論じる。
- 参考スコア(独自算出の注目度): 26.87470552888266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as powerful sources of evidence for linguists seeking to develop theories of syntax. In this paper, we argue that causal interpretability methods, applied to LLMs, can greatly enhance the value of such evidence by helping us characterize the abstract mechanisms that LLMs learn to use. Our empirical focus is a set of English filler-gap dependency constructions (e.g., questions, relative clauses). Linguistic theories largely agree that these constructions share many properties. Using experiments based in Distributed Interchange Interventions, we show that LLMs converge on similar abstract analyses of these constructions. These analyses also reveal previously overlooked factors -- relating to frequency, filler type, and surrounding context -- that could motivate changes to standard linguistic theory. Overall, these results suggest that mechanistic, internal analyses of LLMs can push linguistic theory forward.
- Abstract(参考訳): 大言語モデル (LLMs) は、文法理論を発展させようとする言語学者の強力な証拠源として登場した。
本稿では, LLMに応用された因果的解釈可能性法が, LLMが学習する抽象的なメカニズムを特徴付けることによって, それらの価値を大幅に向上させることができることを論じる。
私たちの経験的焦点は、英語のフィラーギャップ依存構造(例えば、質問、相対的な節)のセットです。
言語学理論は、これらの構造が多くの性質を共有していることに大きく同意する。
分散インターチェンジ・インターベンションに基づく実験により、LLMは同様の抽象的な構造解析に収束することを示した。
これらの分析はまた、周波数、フィラータイプ、周囲の文脈に関する、これまで見過ごされていた要因が、標準言語理論の変更を動機づける可能性があることも明らかにした。
これらの結果から,LLMの機械的内部解析が言語理論を前進させる可能性が示唆された。
関連論文リスト
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Investigating Syntactic Biases in Multilingual Transformers with RC Attachment Ambiguities in Italian and English [1.2891210250935148]
本研究は,イタリア語と英語の相対的節付きあいまいさの例として,単言語・多言語LLMが人間的嗜好を示すか否かを考察する。
また、これらの嗜好が、構文的・意味的関係に関する微妙な制約に結びついていることが示されている語彙的要因によって調節できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-04-14T05:19:23Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models [40.12943080113246]
スパースオートエンコーダ(SAE)を用いた系統的・包括的因果調査を提案する。
6次元から幅広い言語的特徴を抽出する。
本稿では,FRC(Feature Representation Confidence)とFIC(Feature Intervention Confidence)の2つの指標を紹介する。
論文 参考訳(メタデータ) (2025-02-27T18:16:47Z) - Large Language Models as Proxies for Theories of Human Linguistic Cognition [2.624902795082451]
人間の言語認知研究における現在の大言語モデル(LLM)の役割について考察する。
我々は,その表現や学習において比較的言語的に中立な認知理論に対するプロキシのようなモデルの利用に焦点をあてる。
論文 参考訳(メタデータ) (2025-02-11T16:38:16Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。