論文の概要: Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models
- arxiv url: http://arxiv.org/abs/2408.06518v1
- Date: Mon, 12 Aug 2024 22:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 19:07:10.117136
- Title: Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models
- Title(参考訳): スクールバスを運転するイエローライク : 言語モデルにおけるセマンティックリーク
- Authors: Hila Gonen, Terra Blevins, Alisa Liu, Luke Zettlemoyer, Noah A. Smith,
- Abstract要約: 我々は、モデルが予期しない方法でプロンプトから生成元に無関係な情報を漏らす現象を識別し、特徴付けする。
本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
- 参考スコア(独自算出の注目度): 113.58052868898173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their wide adoption, the biases and unintended behaviors of language models remain poorly understood. In this paper, we identify and characterize a phenomenon never discussed before, which we call semantic leakage, where models leak irrelevant information from the prompt into the generation in unexpected ways. We propose an evaluation setting to detect semantic leakage both by humans and automatically, curate a diverse test suite for diagnosing this behavior, and measure significant semantic leakage in 13 flagship models. We also show that models exhibit semantic leakage in languages besides English and across different settings and generation scenarios. This discovery highlights yet another type of bias in language models that affects their generation patterns and behavior.
- Abstract(参考訳): 広く採用されているにもかかわらず、言語モデルのバイアスや意図しない振る舞いはいまだに理解されていない。
本稿では,これまでに議論されたことのない現象を識別し,その現象をセマンティックリークと呼び,モデルが予期せぬ方法でプロンプトから生成する無関係な情報を漏らす現象を特徴付ける。
本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
また、英語以外の言語や、異なる設定や生成シナリオにまたがるセマンティックリークを示すモデルを示す。
この発見は、生成パターンや振る舞いに影響を与える言語モデルにおける別のタイプのバイアスを強調します。
関連論文リスト
- Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? [17.011882550422452]
命令データの性質がモデル出力に影響を及ぼすかどうかは不明である。
翻訳されたテストセットがそのようなニュアンスをキャプチャできるかどうかは疑わしい。
ネイティブまたはジェネレーションベンチマークでは、ネイティブとトランスポートされたインストラクションデータの間に顕著な違いがあることが示されている。
論文 参考訳(メタデータ) (2024-06-18T17:43:47Z) - Multilingual large language models leak human stereotypes across language boundaries [25.903732543380528]
モデルを多言語で訓練すると、ある言語で表現されたステレオタイプが、別の言語でモデルの振る舞いに現れる可能性がある。
ステレオタイプ漏洩の測定フレームワークを提案し,その影響を英語,ロシア語,中国語,ヒンディー語で調査する。
GPT-3.5は最もステレオタイプのリークであり,Hindiは最もリークの影響を受けやすい。
論文 参考訳(メタデータ) (2023-12-12T10:24:17Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Uncovering Constraint-Based Behavior in Neural Models via Targeted
Fine-Tuning [9.391375268580806]
本研究は,言語知識が不明な言語内での競合する言語プロセスを示す。
人間の行動は言語間で類似していることがわかったが、モデル行動の言語間差異は見いだされている。
以上の結果から,言語における言語的制約と相対的ランクの双方をモデルが学習する必要があることが示唆された。
論文 参考訳(メタデータ) (2021-06-02T14:52:11Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。