論文の概要: Language Models Fail to Introspect About Their Knowledge of Language
- arxiv url: http://arxiv.org/abs/2503.07513v2
- Date: Wed, 12 Mar 2025 03:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 12:14:49.704304
- Title: Language Models Fail to Introspect About Their Knowledge of Language
- Title(参考訳): 言語モデルは、言語に関する知識を検査できない
- Authors: Siyuan Song, Jennifer Hu, Kyle Mahowald,
- Abstract要約: 我々は,21のオープンソース言語モデルを対象とした創発的イントロスペクションを体系的に検討する。
モデルがメタ言語的刺激に対する応答を、内部知識を忠実に反映しているかどうかを評価する。
本稿では,モデルが入力した応答が自身の文字列の確率を予測する度合いという,新しいイントロスペクション尺度を提案する。
- 参考スコア(独自算出の注目度): 13.743212705122751
- License:
- Abstract: There has been recent interest in whether large language models (LLMs) can introspect about their own internal states. Such abilities would make LLMs more interpretable, and also validate the use of standard introspective methods in linguistics to evaluate grammatical knowledge in models (e.g., asking "Is this sentence grammatical?"). We systematically investigate emergent introspection across 21 open-source LLMs, in two domains where introspection is of theoretical interest: grammatical knowledge and word prediction. Crucially, in both domains, a model's internal linguistic knowledge can be theoretically grounded in direct measurements of string probability. We then evaluate whether models' responses to metalinguistic prompts faithfully reflect their internal knowledge. We propose a new measure of introspection: the degree to which a model's prompted responses predict its own string probabilities, beyond what would be predicted by another model with nearly identical internal knowledge. While both metalinguistic prompting and probability comparisons lead to high task accuracy, we do not find evidence that LLMs have privileged "self-access". Our findings complicate recent results suggesting that models can introspect, and add new evidence to the argument that prompted responses should not be conflated with models' linguistic generalizations.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) が自身の内部状態をイントロスペクションできるかどうかが注目されている。
このような能力は、LLMをより解釈しやすくし、また言語学における標準のイントロスペクティブ手法を用いて、モデルにおける文法的知識を評価する(例えば、「この文は文法的か?」)。
言語知識と単語予測の2つの領域において,21のオープンソースLCMにおける創発的イントロスペクションを体系的に検討した。
重要なことに、両方の領域において、モデルの内部言語知識は、弦確率の直接測定によって理論的に基礎付けられる。
次に、モデルがメタ言語的刺激に対する応答が内部知識を忠実に反映するかどうかを評価する。
そこで本研究では,モデルが入力した応答が,内部知識がほぼ同一である他のモデルによって予測される範囲を超えて,自身の文字列確率を予測するための新しいイントロスペクション尺度を提案する。
メタ言語的プロンプトと確率比較は高いタスク精度をもたらすが、LSMが「自己アクセス」を特権化しているという証拠は見つからない。
本研究は, モデルが内省可能であることを示唆する最近の知見を複雑にし, 応答はモデルの言語的一般化と混同すべきでないという新たな証拠を新たに加えた。
関連論文リスト
- Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Prompting is not a substitute for probability measurements in large
language models [22.790531588072245]
モデルの言語的知識を測定する手段として,メタ言語的プロンプトと直接確率測定を比較した。
以上の結果から, LLMが特定の言語的一般化を欠いているという決定的な証拠として, メタリング主義的プロンプトに依存する否定的な結果が認められないことが示唆された。
また,確率分布へのアクセスが制限されたクローズドAPIへの移行によって失われる価値も強調した。
論文 参考訳(メタデータ) (2023-05-22T17:33:17Z) - Large Linguistic Models: Investigating LLMs' metalinguistic abilities [1.0923877073891446]
我々は,OpenAIのo1が,構文木の作成や音韻的一般化に関わるタスクにおいて,他のモデルよりも大幅に優れていることを示す。
OpenAI o1の他のモデルに対する独特な優位性は、モデルのチェーン・オブ・シント機構によってもたらされる可能性があると推測する。
論文 参考訳(メタデータ) (2023-05-01T17:09:33Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。