論文の概要: Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment
- arxiv url: http://arxiv.org/abs/2311.08596v2
- Date: Wed, 21 Feb 2024 18:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:51:57.089364
- Title: Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment
- Title(参考訳): あなたは確かですか?
FlipFlop実験におけるLCMの混在によるパフォーマンス低下
- Authors: Philippe Laban and Lidiya Murakhovs'ka and Caiming Xiong and
Chien-Sheng Wu
- Abstract要約: 大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
- 参考スコア(独自算出の注目度): 82.60594940370919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The interactive nature of Large Language Models (LLMs) theoretically allows
models to refine and improve their answers, yet systematic analysis of the
multi-turn behavior of LLMs remains limited. In this paper, we propose the
FlipFlop experiment: in the first round of the conversation, an LLM completes a
classification task. In a second round, the LLM is challenged with a follow-up
phrase like "Are you sure?", offering an opportunity for the model to reflect
on its initial answer, and decide whether to confirm or flip its answer. A
systematic study of ten LLMs on seven classification tasks reveals that models
flip their answers on average 46% of the time and that all models see a
deterioration of accuracy between their first and final prediction, with an
average drop of 17% (the FlipFlop effect). We conduct finetuning experiments on
an open-source LLM and find that finetuning on synthetically created data can
mitigate - reducing performance deterioration by 60% - but not resolve
sycophantic behavior entirely. The FlipFlop experiment illustrates the
universality of sycophantic behavior in LLMs and provides a robust framework to
analyze model behavior and evaluate future models.
- Abstract(参考訳): LLM(Large Language Models)のインタラクティブな性質は、理論的にはモデルによる解法の洗練と改善を可能にするが、LLMのマルチターン動作の体系的解析は限定的である。
本稿では,FlipFlop実験を提案する。会話の第1ラウンドでは,LLMが分類タスクを完了する。
2回目のラウンドでは、LLMは"Are you sure?"のようなフォローアップフレーズで挑戦され、モデルが最初の回答を反映する機会を提供し、その答えを確認または無効にするかを決めます。
7つの分類タスクにおける10のllmの体系的な研究により、モデルが平均46%の頻度で答えをひっくり返し、全てのモデルが最初の予測と最終予測の間に精度の低下が見られることが明らかとなった(フリップフロップ効果)。
オープンソースのllm上で微調整実験を行い,合成データに対する微調整は性能劣化を60%低減するが,共発的な動作を完全に解決するものではないことを発見した。
FlipFlop実験は、LLMにおけるサイコファンティック行動の普遍性を示し、モデル挙動を分析し将来のモデルを評価するための堅牢なフレームワークを提供する。
関連論文リスト
- CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement [40.57471062885033]
我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Peer-review-in-LLMs: Automatic Evaluation Method for LLMs in
Open-environment [19.954915320147148]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Zero-Shot Position Debiasing for Large Language Models [41.601823886414294]
大規模言語モデル(LLM)における位置バイアスを軽減するため,ゼロショット位置バイアス(ZOE)フレームワークを提案する。
ZOEは3種類の位置バイアスを緩和する既存の手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。