論文の概要: Suppressing Pink Elephants with Direct Principle Feedback
- arxiv url: http://arxiv.org/abs/2402.07896v1
- Date: Mon, 12 Feb 2024 18:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 12:55:13.502257
- Title: Suppressing Pink Elephants with Direct Principle Feedback
- Title(参考訳): 直接原理フィードバックによるピンクエレファント抑制
- Authors: Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf,
Siddharth Verma, Stella Biderman
- Abstract要約: LLMは制御可能なテキストビット推論時間であることが望ましいため、多様なニーズを持った複数のコンテキストで使用することができる。
我々は、リアクションのランキングを省略し、DPOを直接批評やリビジョンに使用する、コンスティチューショナルAIの新たな単純化であるtextbfDirect Principle Feedbackを適用した。
以上の結果から,合成Pink ElephantsデータセットのDPF微調整後,LLaMA2モデルがLlama-2-13B-Chatより有意に優れ,ベースラインが誘導された。
- 参考スコア(独自算出の注目度): 16.643580760268435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for controlling language models, such as RLHF and
Constitutional AI, involve determining which LLM behaviors are desirable and
training them into a language model. However, in many cases, it is desirable
for LLMs to be controllable \textit{at inference time}, so that they can be
used in multiple contexts with diverse needs. We illustrate this with the
\textbf{Pink Elephant Problem}: instructing an LLM to avoid discussing a
certain entity (a ``Pink Elephant''), and instead discuss a preferred entity
(``Grey Elephant''). We apply a novel simplification of Constitutional AI,
\textbf{Direct Principle Feedback}, which skips the ranking of responses and
uses DPO directly on critiques and revisions. Our results show that after DPF
fine-tuning on our synthetic Pink Elephants dataset, our 13B fine-tuned LLaMA 2
model significantly outperforms Llama-2-13B-Chat and a prompted baseline, and
performs as well as GPT-4 in on our curated test set assessing the Pink
Elephant Problem.
- Abstract(参考訳): RLHFやコンスティチューションAIといった既存の言語モデルを制御する方法は、どのLLMの振る舞いが望ましいかを判断し、それらを言語モデルに訓練する。
しかし、多くの場合、llmsは様々なニーズを持つ複数のコンテキストで使用できるように、制御可能な \textit{at inference time} であることが望ましい。
我々はこれを \textbf{pink elephant problem} で説明する: llmに特定の実体(``pink elephant'')の議論を避けるよう指示し、代わりに望ましい実体(``grey elephant'')について議論する。
本稿では,リアクションのランク付けを省略し,批判やリビジョンに直接DPOを利用する,憲法AIの新たな単純化である‘textbf{Direct Principle Feedback} を適用する。
以上の結果から, 合成Pink ElephantsデータセットのDPF微調整後, LLaMA 2モデルがLlama-2-13B-Chatおよび誘導ベースラインより有意に優れており, Pink Elephant問題を評価する試験セットではGPT-4と同等の性能を示した。
関連論文リスト
- Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification [13.081342795985003]
Pelicanは、クレーム検証を通じて幻覚を検出し緩和するために設計されたフレームワークである。
実験の結果,MMHal-Benchの幻覚緩和法と比較して,幻覚率8%~32%低下し,27%低下した。
論文 参考訳(メタデータ) (2024-07-02T15:17:44Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots [19.423566424346166]
本研究では,Large Language Model (LLM) ベースのチャットボットを用いて推薦システムを構築する。
チャットボットが不特定要求に遭うと、応答が悪くなるのを観察する。
我々は,このような誤った応答傾向は,アノテータを用いたLPM微調整に起因していると推測する。
論文 参考訳(メタデータ) (2024-06-01T15:54:45Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。