論文の概要: Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment
- arxiv url: http://arxiv.org/abs/2311.08596v1
- Date: Tue, 14 Nov 2023 23:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:53:23.621225
- Title: Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment
- Title(参考訳): あなたは確かですか?
FlipFlop実験におけるLCMの混在によるパフォーマンス低下
- Authors: Philippe Laban and Lidiya Murakhovs'ka and Caiming Xiong and
Chien-Sheng Wu
- Abstract要約: 大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
7つの分類タスクに関する9つのLCMの体系的研究により、モデルが解答を平均46%の時間でひっくり返すことが判明した。
FlipFlop実験は、LLMにおけるサイコファンティックな振る舞いの普遍性を示し、モデル挙動を分析し、潜在的なソリューションを評価するための堅牢なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 82.60594940370919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The interactive nature of Large Language Models (LLMs) theoretically allows
models to refine and improve their answers, yet systematic analysis of the
multi-turn behavior of LLMs remains limited. In this paper, we propose the
FlipFlop experiment: in the first round of the conversation, an LLM responds to
a prompt containing a classification task. In a second round, the LLM is
challenged with a follow-up phrase like "Are you sure?", offering an
opportunity for the model to reflect on its initial answer, and decide whether
to confirm or flip its answer. A systematic study of nine LLMs on seven
classification tasks reveals that models flip their answers on average 46% of
the time and that all models see a deterioration of accuracy between their
first and final prediction, with an average drop of 17%. The FlipFlop
experiment illustrates the universality of sycophantic behavior in LLMs and
provides a robust framework to analyze model behavior and evaluate potential
solutions.
- Abstract(参考訳): LLM(Large Language Models)のインタラクティブな性質は、理論的にはモデルによる解法の洗練と改善を可能にするが、LLMのマルチターン動作の体系的解析は限定的である。
本稿では,FlipFlop実験を提案する。会話の第1ラウンドにおいて,LLMは分類タスクを含むプロンプトに応答する。
2回目のラウンドでは、LLMは"Are you sure?"のようなフォローアップフレーズで挑戦され、モデルが最初の回答を反映する機会を提供し、その答えを確認または無効にするかを決めます。
7つの分類タスクに関する9つのLCMの体系的研究は、モデルが平均46%の時間で解答を反転し、全てのモデルが最初の予測と最終予測の間に精度の劣化を観測し、平均17%の低下を示した。
FlipFlop実験は、LLMにおけるサイコファンティックな振る舞いの普遍性を示し、モデル挙動を分析し、潜在的なソリューションを評価するための堅牢なフレームワークを提供する。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。
最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文 参考訳(メタデータ) (2024-10-14T13:10:45Z) - I've got the "Answer"! Interpretation of LLMs Hidden States in Question Answering [0.0]
本稿では,知識に基づく質問応答の文脈における大規模言語モデル(LLM)の解釈について検討する。
この研究の主な仮説は、正誤モデル行動は隠れた状態のレベルで区別できるというものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:12Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。
このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。
すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-09T19:02:53Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。