論文の概要: Surfacing Biases in Large Language Models using Contrastive Input
Decoding
- arxiv url: http://arxiv.org/abs/2305.07378v1
- Date: Fri, 12 May 2023 11:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:18:18.248567
- Title: Surfacing Biases in Large Language Models using Contrastive Input
Decoding
- Title(参考訳): コントラスト入力復号を用いた大規模言語モデルにおける上位バイアス
- Authors: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
- Abstract要約: コントラスト入力復号法(コントラスト入力復号法、Contrastive Input Decoding, CID)は、2つの入力を与えられたテキストを生成する復号アルゴリズムである。
CIDを使って、標準的なデコード戦略では検出が難しいコンテキスト固有のバイアスを強調します。
- 参考スコア(独自算出の注目度): 12.694066526722203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.
- Abstract(参考訳): 大きな言語モデル(LM)が公平で堅牢で有用であることを保証するためには、入力に対する異なる変更がモデルの振る舞いに与える影響を理解する必要がある。
しかし、オープンテキスト生成タスクの文脈では、そのような評価は自明ではない。
例えば、入力テキストと摂動型(contrastive)のモデルを導入する場合、次の予測における意味的な違いは、標準のデコード戦略では明らかにされない。
このモチベーションを念頭に置いて,2つの入力が与えられたテキストを生成するデコードアルゴリズムであるコントラスト型入力復号 (cid) を提案する。
このようにして、対照的な世代は、シンプルで解釈可能な方法で2つの入力に対してLM出力がどのように異なるかという点において、潜在的に微妙な違いを強調することができる。
我々はCIDを用いて、標準的なデコード戦略で検出し難いコンテキスト固有のバイアスを強調し、異なる入力摂動の影響を定量化する。
関連論文リスト
- Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.6908427615402]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。
エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。
デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (2024-10-26T00:16:08Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models [0.0]
本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
論文 参考訳(メタデータ) (2024-05-21T06:26:10Z) - Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text
Generation [5.304395026626743]
入力に埋もれていないテキストの幻覚は、ニューラルネットワークによるテキスト生成においてよく知られた問題である。
生成言語モデルの確率的出力と特別な「テキスト評論家」の出力を組み合わせることで幻覚を緩和する新しい方法を提案する。
本手法では,LMのアーキテクチャやトレーニング手順の変更は不要である。
論文 参考訳(メタデータ) (2023-10-25T20:05:07Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Code Difference Guided Adversarial Example Generation for Deep Code
Models [25.01072108219646]
ディープコードモデルの堅牢性をテストし、強化する上で、敵対的な例は重要です。
深層コードモデルをテストするための新しい逆例生成手法(CODA)を提案する。
論文 参考訳(メタデータ) (2023-01-06T08:03:56Z) - Contrastive Decoding: Open-ended Text Generation as Optimization [153.35961722855686]
信頼性の高い復号法であるコントラスト復号法(CD)を提案する。
これは、より大きなLMの故障がより小さなLMでさらに多いという事実に着想を得たものである。
CDは追加のトレーニングを一切必要とせず、より大きなLMからの復号化よりも高品質なテキストを生成する。
論文 参考訳(メタデータ) (2022-10-27T00:58:21Z) - FAST: Improving Controllability for Text Generation with Feedback Aware
Self-Training [25.75982440355576]
制御可能なテキスト生成システムは、しばしば制御コードを利用して、スタイルや長さといった出力の様々な特性を指示する。
NLPの因果推論に関する最近の研究に触発された本論文は、これらの制御符号に基づく条件付きテキスト生成アルゴリズムにおいて、これまで見過ごされていた欠陥を明らかにする。
トレーニングセットにおけるこれらの相関を減少させるための2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T19:00:51Z) - On Measuring Social Biases in Prompt-Based Multi-Task Learning [1.3270286124913757]
我々は,プロンプトベース学習を用いて学習した大規模マルチタスクテキスト-テキスト言語モデルであるT0について検討した。
意味論的に等価な入力の2つの形態について考察する。
論文 参考訳(メタデータ) (2022-05-23T20:01:20Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。