Fugu-MT 論文翻訳(概要): Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment

論文の概要: Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment

arxiv url: http://arxiv.org/abs/2311.08596v2
Date: Wed, 21 Feb 2024 18:15:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 19:51:57.089364
Title: Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment
Title（参考訳）: あなたは確かですか? FlipFlop実験におけるLCMの混在によるパフォーマンス低下
Authors: Philippe Laban and Lidiya Murakhovs'ka and Caiming Xiong and Chien-Sheng Wu
Abstract要約: 大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
参考スコア（独自算出の注目度）: 82.60594940370919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The interactive nature of Large Language Models (LLMs) theoretically allows models to refine and improve their answers, yet systematic analysis of the multi-turn behavior of LLMs remains limited. In this paper, we propose the FlipFlop experiment: in the first round of the conversation, an LLM completes a classification task. In a second round, the LLM is challenged with a follow-up phrase like "Are you sure?", offering an opportunity for the model to reflect on its initial answer, and decide whether to confirm or flip its answer. A systematic study of ten LLMs on seven classification tasks reveals that models flip their answers on average 46% of the time and that all models see a deterioration of accuracy between their first and final prediction, with an average drop of 17% (the FlipFlop effect). We conduct finetuning experiments on an open-source LLM and find that finetuning on synthetically created data can mitigate - reducing performance deterioration by 60% - but not resolve sycophantic behavior entirely. The FlipFlop experiment illustrates the universality of sycophantic behavior in LLMs and provides a robust framework to analyze model behavior and evaluate future models.
Abstract（参考訳）: LLM(Large Language Models)のインタラクティブな性質は、理論的にはモデルによる解法の洗練と改善を可能にするが、LLMのマルチターン動作の体系的解析は限定的である。本稿では,FlipFlop実験を提案する。会話の第1ラウンドでは,LLMが分類タスクを完了する。 2回目のラウンドでは、LLMは"Are you sure?"のようなフォローアップフレーズで挑戦され、モデルが最初の回答を反映する機会を提供し、その答えを確認または無効にするかを決めます。 7つの分類タスクにおける10のllmの体系的な研究により、モデルが平均46%の頻度で答えをひっくり返し、全てのモデルが最初の予測と最終予測の間に精度の低下が見られることが明らかとなった(フリップフロップ効果)。オープンソースのllm上で微調整実験を行い,合成データに対する微調整は性能劣化を60%低減するが,共発的な動作を完全に解決するものではないことを発見した。 FlipFlop実験は、LLMにおけるサイコファンティック行動の普遍性を示し、モデル挙動を分析し将来のモデルを評価するための堅牢なフレームワークを提供する。

関連論文リスト

Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文参考訳（メタデータ） (2025-12-29T05:25:49Z)
Collaborative QA using Interacting LLMs. Impact of Network Structure, Node Capability and Distributed Data [13.87098169839313]
本研究では,LLMのネットワークが協調質問応答 (CQA) をどのように行うかを分析し,分散文書の集合から基礎的真理を推定する。ネットワーク科学から平均場力学(MFD)の新たなアイデアと経済学からランダム化されたユーティリティモデルを組み合わせることで,LLMの相互作用とその幻覚について検討する。
論文参考訳（メタデータ） (2025-11-18T03:32:17Z)
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback [20.985320124495566]
LLMは外部からのフィードバックを受けると応答を改善する能力を持っている。これらのモデルが外部からのフィードバックをいかに効果的かつ徹底的に組み込むことができるかは、まだ不明である。
論文参考訳（メタデータ） (2025-06-13T16:31:51Z)
"Check My Work?": Measuring Sycophancy in a Simulated Educational Context [0.0]
本研究では,ユーザが提案する提案が,シミュレーション学習環境におけるLarge Language Model(LLM)に与える影響について検討する。クエリ・フレーミングに基づいて応答品質が劇的に変化することを示す。この結果から,このようなバイアスを教育の文脈で緩和する方法やメカニズムをよりよく理解する必要性が浮かび上がっている。
論文参考訳（メタデータ） (2025-06-12T02:21:43Z)
LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。 LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文参考訳（メタデータ） (2025-05-01T15:07:32Z)
None of the Above, Less of the Right: Parallel Patterns between Humans and LLMs on Multi-Choice Questions Answering [23.176280217718002]
上記の「なし」オプションを用いた複数選択試験は、教育試験において広く研究されている。 NAオプションがモデル性能と信頼性のキャリブレーションにどのように影響するかを検討する。本結果は,LLMが実世界のアプリケーションで不確実性に対処する能力について,ベンチマーク設計における重要な意味を強調した。
論文参考訳（メタデータ） (2025-03-03T13:55:29Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文参考訳（メタデータ） (2024-10-14T13:10:45Z)
I've got the "Answer"! Interpretation of LLMs Hidden States in Question Answering [0.0]
本稿では,知識に基づく質問応答の文脈における大規模言語モデル(LLM)の解釈について検討する。この研究の主な仮説は、正誤モデル行動は隠れた状態のレベルで区別できるというものである。
論文参考訳（メタデータ） (2024-06-04T07:43:12Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-09T19:02:53Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文参考訳（メタデータ） (2023-05-29T11:03:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。