論文の概要: Systematic Rectification of Language Models via Dead-end Analysis
- arxiv url: http://arxiv.org/abs/2302.14003v1
- Date: Mon, 27 Feb 2023 17:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:32:47.963024
- Title: Systematic Rectification of Language Models via Dead-end Analysis
- Title(参考訳): デッドエンド解析による言語モデルの体系化
- Authors: Meng Cao and Mehdi Fatemi and Jackie Chi Kit Cheung and Samira
Shabanian
- Abstract要約: 大型言語モデル(LLM)は有害な談話を生成するためにプッシュされる。
ここでは、完了した談話が最終的に有毒と考えられる確率について、デトックス化を中心とする。
我々の手法は整流化と呼ばれ、別個のモデルを用いるが、デトキシ化には著しく小さいモデルを用いる。
- 参考スコア(独自算出の注目度): 34.37598463459319
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With adversarial or otherwise normal prompts, existing large language models
(LLM) can be pushed to generate toxic discourses. One way to reduce the risk of
LLMs generating undesired discourses is to alter the training of the LLM. This
can be very restrictive due to demanding computation requirements. Other
methods rely on rule-based or prompt-based token elimination, which are limited
as they dismiss future tokens and the overall meaning of the complete
discourse. Here, we center detoxification on the probability that the finished
discourse is ultimately considered toxic. That is, at each point, we advise
against token selections proportional to how likely a finished text from this
point will be toxic. To this end, we formally extend the dead-end theory from
the recent reinforcement learning (RL) literature to also cover uncertain
outcomes. Our approach, called rectification, utilizes a separate but
significantly smaller model for detoxification, which can be applied to diverse
LLMs as long as they share the same vocabulary. Importantly, our method does
not require access to the internal representations of the LLM, but only the
token probability distribution at each decoding step. This is crucial as many
LLMs today are hosted in servers and only accessible through APIs. When applied
to various LLMs, including GPT-3, our approach significantly improves the
generated discourse compared to the base LLMs and other techniques in terms of
both the overall language and detoxification performance.
- Abstract(参考訳): 逆あるいは通常のプロンプトでは、既存の大規模言語モデル(LLM)をプッシュして有害な談話を生成することができる。
望ましくない談話を生成するLLMのリスクを軽減する1つの方法は、LLMのトレーニングを変更することである。
これは計算要求のために非常に制限される。
その他の方法はルールベースまたはプロンプトベースのトークン除去に依存しており、将来のトークンと完全な言論の全体的な意味を排除して制限されている。
ここで、我々は、最終的な談話が最終的に有毒であると考えられる確率のデトキシフィケーションを中心とする。
つまり、それぞれの点において、この点から完成したテキストが有毒になる確率に比例してトークンの選択を推奨します。
この目的のために、我々は最近の強化学習(rl)文献からデッドエンド理論を正式に拡張し、不確定な結果もカバーする。
我々のアプローチは整合化と呼ばれ、異なるがはるかに小さな解毒モデルを用いており、同じ語彙を共有できる限り様々なLSMに適用できる。
重要なことに、本手法はllmの内部表現へのアクセスを必要とせず、各復号ステップにおけるトークン確率分布のみを利用する。
現在多くのLLMがサーバにホストされており、APIを通してのみアクセス可能であるため、これは非常に重要です。
GPT-3 を含む様々な LLM に適用した場合,本手法は,基本 LLM や他の手法と比較して,言語全体および解毒性能の両面で,生成した言論を著しく改善する。
関連論文リスト
- Dialectal Toxicity Detection: Evaluating LLM-as-a-Judge Consistency Across Language Varieties [23.777874316083984]
現代のLSMによる毒性の検出に方言の違いがどう影響するかについては、体系的な研究はほとんど行われていない。
10の言語クラスタと60の変種をカバーする合成変換と人間による翻訳により、多言語データセットを作成する。
次に,多言語,方言,LLM-ヒト間の毒性を評価できる3つのLSMを評価した。
論文 参考訳(メタデータ) (2024-11-17T03:53:24Z) - Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - "Sorry, Come Again?" Prompting -- Enhancing Comprehension and Diminishing Hallucination with [PAUSE]-injected Optimal Paraphrasing [10.20632187568563]
幻覚は現代大言語モデル(LLM)の最も脆弱な側面として現れてきた。
本稿では,LCMの幻覚を避けることを目的としたSCAプロンプトについて紹介する。
本稿では,21のLLMに対するプロンプトの形式性,可読性,具体性について,言語的ニュアンスを詳細に分析する。
与えられたプロンプトの最も理解しやすいパラフレーズを識別する最適なパラフレーズ化手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T19:45:09Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Can LLMs Compute with Reasons? [4.995189458714599]
大規模言語モデル(LLM)は複雑な数学的タスクに苦しむことが多く、誤った答えを「幻覚させる」傾向がある。
本研究では,Small LangSLMの分散ネットワークを利用した「帰納学習」手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T12:04:25Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。