論文の概要: Personas as a Way to Model Truthfulness in Language Models
- arxiv url: http://arxiv.org/abs/2310.18168v5
- Date: Tue, 6 Feb 2024 09:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:04:47.344543
- Title: Personas as a Way to Model Truthfulness in Language Models
- Title(参考訳): 言語モデルにおける真さをモデル化するペルソナ
- Authors: Nitish Joshi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
- Abstract要約: 大規模な言語モデル(LLM)は、インターネットから大量のテキストで訓練されている。
本稿では,真理ラベルのトレーニングを受けていないLMが真理を知っているように見える理由を説明する。
- 参考スコア(独自算出の注目度): 23.86655844340011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained on vast amounts of text from the
internet, which contains both factual and misleading information about the
world. While unintuitive from a classic view of LMs, recent work has shown that
the truth value of a statement can be elicited from the model's
representations. This paper presents an explanation for why LMs appear to know
the truth despite not being trained with truth labels. We hypothesize that the
pretraining data is generated by groups of (un)truthful agents whose outputs
share common features, and they form a (un)truthful persona. By training on
this data, LMs can infer and represent the persona in its activation space.
This allows the model to separate truth from falsehoods and controls the
truthfulness of its generation. We show evidence for the persona hypothesis via
two observations: (1) we can probe whether a model's answer will be truthful
before it is generated; (2) finetuning a model on a set of facts improves its
truthfulness on unseen topics. Next, using arithmetics as a synthetic
environment, we show that structures of the pretraining data are crucial for
the model to infer the truthful persona. Overall, our findings suggest that
models can exploit hierarchical structures in the data to learn abstract
concepts like truthfulness.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、インターネットから大量のテキストで訓練されており、事実と誤解を招く情報の両方を含んでいる。
LMの古典的な見方からは直観的ではないが、最近の研究は、文の真理値がモデルの表現から引き出すことができることを示した。
本稿では,真理ラベルのトレーニングを受けていないLMが真理を知っているように見える理由を説明する。
プリトレーニングデータは、アウトプットが共通の特徴を持つ(非)エージェントのグループによって生成され、(非)パーソナリティを形成すると仮定する。
このデータに基づいてトレーニングすることで、LMはそのアクティベーション空間におけるペルソナを推論し、表現することができる。
これにより、モデルは真理を虚偽から切り離し、その世代の真理を制御できる。
我々は,(1)モデルが生成する前に真理であるかどうかを検証し,(2)事実の集合上でモデルを微調整することで,その真理性が改善される,という2つの観察を通してペルソナ仮説の証拠を示す。
次に,算術を合成環境として用いることで,事前学習データの構造が真正ペルソナを推測するために重要であることを示す。
全体としては、モデルがデータの階層構造を利用して真理のような抽象概念を学習できることが示唆されている。
関連論文リスト
- MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。
MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文 参考訳(メタデータ) (2024-04-03T19:47:33Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models [27.943334687742244]
我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。
実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
論文 参考訳(メタデータ) (2023-05-23T20:26:03Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。
我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文 参考訳(メタデータ) (2021-07-05T17:31:44Z) - Facts as Experts: Adaptable and Interpretable Neural Memory over
Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。
このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-07-02T03:05:41Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。