Fugu-MT 論文翻訳(概要): Personas as a Way to Model Truthfulness in Language Models

論文の概要: Personas as a Way to Model Truthfulness in Language Models

arxiv url: http://arxiv.org/abs/2310.18168v2
Date: Mon, 30 Oct 2023 13:20:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 19:13:51.939101
Title: Personas as a Way to Model Truthfulness in Language Models
Title（参考訳）: 言語モデルにおける真さをモデル化するペルソナ
Authors: Nitish Joshi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
Abstract要約: 言語モデルは、真正のペルソナをモデル化することで、真正のテキストをクラスタリングできることを示す。例えば、WikipediaやScienceのような信頼できる情報源は、形式的な書式を使い、一貫した主張をする。
参考スコア（独自算出の注目度）: 23.86655844340011
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.
Abstract（参考訳）: 大規模な言語モデルは、インターネットから大量のテキストで訓練されており、これは事実と誤解を招く世界に関する情報の両方を含んでいる。言語モデルは、この矛盾するデータで真理と偽りを区別できるだろうか? llmがコーパスを生産する異なるエージェントをモデル化できるという見解を拡張して、真理のあるパーソナリティをモデル化することで真理のあるテキストをクラスタ化できると仮定した。例えば、wikipediaやscienceのような信頼できる情報源は通常形式的な文体を使い、一貫した主張をする。このペルソナをモデル化することにより、LLMは、各エージェントがトレーニングテキストを生成する特定のコンテキストを超えて、真実性を一般化することができる。例えば、このモデルはエージェント"wikipedia"が、ペルソナを共有するため、"科学"によってのみ生成されたトピックに対して、真に振る舞うと推測できる。まず2つの観察によってペルソナ仮説の証拠を示す:(1)生成前にモデルの答えが真理であるかどうかを検証できる、(2)一連の事実に基づいてモデルを微調整することで、未知の話題に対する真理性が向上する。次に、算術を合成環境として用いて、言語モデルが真と偽の言明を分離し、エージェント間で真さを一般化できることを示し、訓練データ内のエージェントが真偽のペルソナを作成することができる真偽生成プロセスを共有する場合に限る。全体としては、モデルがデータの階層構造を利用して真理のような抽象概念を学習できることが示唆されている。

関連論文リスト

Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks [31.379237532476875]
我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
論文参考訳（メタデータ） (2025-06-01T03:55:53Z)
Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文参考訳（メタデータ） (2025-05-22T11:00:53Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。 MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文参考訳（メタデータ） (2024-04-03T19:47:33Z)
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文参考訳（メタデータ） (2023-10-10T17:54:39Z)
Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文参考訳（メタデータ） (2023-09-25T17:50:41Z)
Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models [27.943334687742244]
我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
論文参考訳（メタデータ） (2023-05-23T20:26:03Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文参考訳（メタデータ） (2021-07-05T17:31:44Z)
Facts as Experts: Adaptable and Interpretable Neural Memory over Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文参考訳（メタデータ） (2020-07-02T03:05:41Z)
Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文参考訳（メタデータ） (2020-06-11T17:02:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。