論文の概要: Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment
- arxiv url: http://arxiv.org/abs/2311.08596v1
- Date: Tue, 14 Nov 2023 23:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:53:23.621225
- Title: Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment
- Title(参考訳): あなたは確かですか?
FlipFlop実験におけるLCMの混在によるパフォーマンス低下
- Authors: Philippe Laban and Lidiya Murakhovs'ka and Caiming Xiong and
Chien-Sheng Wu
- Abstract要約: 大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
7つの分類タスクに関する9つのLCMの体系的研究により、モデルが解答を平均46%の時間でひっくり返すことが判明した。
FlipFlop実験は、LLMにおけるサイコファンティックな振る舞いの普遍性を示し、モデル挙動を分析し、潜在的なソリューションを評価するための堅牢なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 82.60594940370919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The interactive nature of Large Language Models (LLMs) theoretically allows
models to refine and improve their answers, yet systematic analysis of the
multi-turn behavior of LLMs remains limited. In this paper, we propose the
FlipFlop experiment: in the first round of the conversation, an LLM responds to
a prompt containing a classification task. In a second round, the LLM is
challenged with a follow-up phrase like "Are you sure?", offering an
opportunity for the model to reflect on its initial answer, and decide whether
to confirm or flip its answer. A systematic study of nine LLMs on seven
classification tasks reveals that models flip their answers on average 46% of
the time and that all models see a deterioration of accuracy between their
first and final prediction, with an average drop of 17%. The FlipFlop
experiment illustrates the universality of sycophantic behavior in LLMs and
provides a robust framework to analyze model behavior and evaluate potential
solutions.
- Abstract(参考訳): LLM(Large Language Models)のインタラクティブな性質は、理論的にはモデルによる解法の洗練と改善を可能にするが、LLMのマルチターン動作の体系的解析は限定的である。
本稿では,FlipFlop実験を提案する。会話の第1ラウンドにおいて,LLMは分類タスクを含むプロンプトに応答する。
2回目のラウンドでは、LLMは"Are you sure?"のようなフォローアップフレーズで挑戦され、モデルが最初の回答を反映する機会を提供し、その答えを確認または無効にするかを決めます。
7つの分類タスクに関する9つのLCMの体系的研究は、モデルが平均46%の時間で解答を反転し、全てのモデルが最初の予測と最終予測の間に精度の劣化を観測し、平均17%の低下を示した。
FlipFlop実験は、LLMにおけるサイコファンティックな振る舞いの普遍性を示し、モデル挙動を分析し、潜在的なソリューションを評価するための堅牢なフレームワークを提供する。
関連論文リスト
- PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement [40.57471062885033]
我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Zero-Shot Position Debiasing for Large Language Models [41.601823886414294]
大規模言語モデル(LLM)における位置バイアスを軽減するため,ゼロショット位置バイアス(ZOE)フレームワークを提案する。
ZOEは3種類の位置バイアスを緩和する既存の手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。