論文の概要: Personas as a Way to Model Truthfulness in Language Models
- arxiv url: http://arxiv.org/abs/2310.18168v2
- Date: Mon, 30 Oct 2023 13:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:13:51.939101
- Title: Personas as a Way to Model Truthfulness in Language Models
- Title(参考訳): 言語モデルにおける真さをモデル化するペルソナ
- Authors: Nitish Joshi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
- Abstract要約: 言語モデルは、真正のペルソナをモデル化することで、真正のテキストをクラスタリングできることを示す。
例えば、WikipediaやScienceのような信頼できる情報源は、形式的な書式を使い、一貫した主張をする。
- 参考スコア(独自算出の注目度): 23.86655844340011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are trained on vast amounts of text from the internet,
which contains both factual and misleading information about the world. Can
language models discern truth from falsehood in this contradicting data?
Expanding on the view that LLMs can model different agents producing the
corpora, we hypothesize that they can cluster truthful text by modeling a
truthful persona: a group of agents that are likely to produce truthful text
and share similar features. For example, trustworthy sources like Wikipedia and
Science usually use formal writing styles and make consistent claims. By
modeling this persona, LLMs can generalize truthfulness beyond the specific
contexts in which each agent generated the training text. For example, the
model can infer that the agent "Wikipedia" will behave truthfully on topics
that were only generated by "Science" because they share a persona. We first
show evidence for the persona hypothesis via two observations: (1) we can probe
whether a model's answer will be truthful before it is generated; (2)
finetuning a model on a set of facts improves its truthfulness on unseen
topics. Next, using arithmetics as a synthetic environment, we show that
language models can separate true and false statements, and generalize
truthfulness across agents; but only if agents in the training data share a
truthful generative process that enables the creation of a truthful persona.
Overall, our findings suggest that models can exploit hierarchical structures
in the data to learn abstract concepts like truthfulness.
- Abstract(参考訳): 大規模な言語モデルは、インターネットから大量のテキストで訓練されており、これは事実と誤解を招く世界に関する情報の両方を含んでいる。
言語モデルは、この矛盾するデータで真理と偽りを区別できるだろうか?
llmがコーパスを生産する異なるエージェントをモデル化できるという見解を拡張して、真理のあるパーソナリティをモデル化することで真理のあるテキストをクラスタ化できると仮定した。
例えば、wikipediaやscienceのような信頼できる情報源は通常形式的な文体を使い、一貫した主張をする。
このペルソナをモデル化することにより、LLMは、各エージェントがトレーニングテキストを生成する特定のコンテキストを超えて、真実性を一般化することができる。
例えば、このモデルはエージェント"wikipedia"が、ペルソナを共有するため、"科学"によってのみ生成されたトピックに対して、真に振る舞うと推測できる。
まず2つの観察によってペルソナ仮説の証拠を示す:(1)生成前にモデルの答えが真理であるかどうかを検証できる、(2)一連の事実に基づいてモデルを微調整することで、未知の話題に対する真理性が向上する。
次に、算術を合成環境として用いて、言語モデルが真と偽の言明を分離し、エージェント間で真さを一般化できることを示し、訓練データ内のエージェントが真偽のペルソナを作成することができる真偽生成プロセスを共有する場合に限る。
全体としては、モデルがデータの階層構造を利用して真理のような抽象概念を学習できることが示唆されている。
関連論文リスト
- MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。
MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文 参考訳(メタデータ) (2024-04-03T19:47:33Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models [27.943334687742244]
我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。
実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
論文 参考訳(メタデータ) (2023-05-23T20:26:03Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。
我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文 参考訳(メタデータ) (2021-07-05T17:31:44Z) - Facts as Experts: Adaptable and Interpretable Neural Memory over
Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。
このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-07-02T03:05:41Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。