論文の概要: Are DeepSeek R1 And Other Reasoning Models More Faithful?
- arxiv url: http://arxiv.org/abs/2501.08156v4
- Date: Thu, 20 Feb 2025 02:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 10:45:22.991798
- Title: Are DeepSeek R1 And Other Reasoning Models More Faithful?
- Title(参考訳): DeepSeek R1その他の推論モデルはより忠実か?
- Authors: James Chua, Owain Evans,
- Abstract要約: 我々は,Qwen-2.5,Gemini-2,DeepSeek-V3-Baseの3つの推論モデルを評価する。
MMLU質問に対する解答に、その解答がどう影響するかをモデルで記述できるかどうかを検証する。
推論モデルは、テストされたすべての非推論モデルよりもはるかに確実にそれらに影響を与えるキューを記述する。
- 参考スコア(独自算出の注目度): 2.0429566123690455
- License:
- Abstract: Language models trained to solve reasoning tasks via reinforcement learning have achieved striking results. We refer to these models as reasoning models. A key question emerges: Are the Chains of Thought (CoTs) of reasoning models more faithful than traditional models? To investigate this, we evaluate three reasoning models (based on Qwen-2.5, Gemini-2, and DeepSeek-V3-Base) on an existing test of faithful CoT. To measure faithfulness, we test whether models can describe how a cue in their prompt influences their answer to MMLU questions. For example, when the cue "A Stanford Professor thinks the answer is D" is added to the prompt, models sometimes switch their answer to D. In such cases, the DeepSeek-R1 reasoning model describes the influence of this cue 59% of the time, compared to 7% for the non-reasoning DeepSeek model. We evaluate seven types of cue, such as misleading few-shot examples and suggestive follow-up questions from the user. Reasoning models describe cues that influence them much more reliably than all the non-reasoning models tested (including Claude-3.5-Sonnet and GPT-4). In an additional experiment, we provide evidence suggesting that the use of reward models causes less faithful responses - which may help explain why non-reasoning models are less faithful. Our study has two main limitations. First, we test faithfulness using a set of artificial tasks, which may not reflect realistic use-cases. Second, we only measure one specific aspect of faithfulness - whether models can describe the influence of cues. Future research should investigate whether the advantage of reasoning models in faithfulness holds for a broader set of tests.
- Abstract(参考訳): 強化学習を通して推論タスクを解くために訓練された言語モデルは、顕著な結果を得た。
これらのモデルを推論モデルと呼ぶ。
従来のモデルよりも推論モデルのチェーン(CoT)の方が忠実か?
そこで本研究では,既存のCoT試験における3つの推論モデル(Qwen-2.5,Gemini-2,DeepSeek-V3-Base)の評価を行った。
忠実度を測定するために、モデルが、その素早い解法がMMLU質問に対する答えにどのように影響するかを記述できるかどうかを検証する。
このような場合、DeepSeek-R1推論モデルは、非推論のDeepSeekモデルでは7%に対して、このキューの影響を59%記述します。
提案手法は,いくつかの事例を誤解させる事例や,ユーザからの示唆的なフォローアップ質問など,7種類のキューを評価した。
推論モデルは、試験されたすべての非推論モデル(Claude-3.5-Sonnet や GPT-4 を含む)よりもはるかに確実にそれらに影響を与えるキューを記述する。
追加の実験では、報酬モデルの使用が忠実でない応答を引き起こす証拠が提示され、これは非推論モデルが忠実でない理由を説明するのに役立つかもしれない。
私たちの研究には2つの主な制限がある。
まず、現実的なユースケースを反映しないような、一連の人工的なタスクを用いて忠実さをテストする。
第2に,忠実さの特定の側面 – モデルがキューの影響を記述できるかどうか – を計測するだけです。
今後の研究は、忠実性の推論モデルの利点がより広範なテストに当てはまるかどうかを調査すべきである。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Explanation-based Finetuning Makes Models More Robust to Spurious Cues [21.327036110196637]
大きな言語モデル(LLM)は非常に強力で、ラベルとタスクとは無関係な機能の間に相関関係を学習することがある。
本稿では,LLMの素早い相関性への依存を軽減するための一般的なアプローチとして,説明ベースファインタニングを提案する。
我々は、その解答をサポートする自由テキスト説明を新たに生成するように、モデルを微調整する。
論文 参考訳(メタデータ) (2023-05-08T18:53:45Z) - Self-Ensemble Protection: Training Checkpoints Are Good Data Protectors [41.45649235969172]
自己アンサンブル保護(SEP)は、データに対する優れたモデルのトレーニングを防ぐために提案されている。
例えば、我々の小さな摂動により、CIFAR-10 ResNet18の精度は94.56%から14.68%に低下し、最もよく知られている方法は41.35%となった。
論文 参考訳(メタデータ) (2022-11-22T04:54:20Z) - Robust Models are less Over-Confident [10.42820615166362]
敵の訓練(AT)は、このような攻撃に対して堅牢性を達成することを目的としている。
我々は、高い堅牢な精度を達成するために、様々な敵に訓練されたモデルを経験的に分析する。
ATには興味深い副作用がある。それは、彼らの決定に非常に自信の持たないモデルに繋がる。
論文 参考訳(メタデータ) (2022-10-12T06:14:55Z) - Improving CTC-based speech recognition via knowledge transferring from
pre-trained language models [30.599901925058873]
CTCに基づくモデルを改善するために,2つの知識伝達手法を提案する。
最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。
第2の方法は、テキストモデリングのためのGPT2とハイブリッドCTC/アテンションアーキテクチャを組み合わせた共同分類学習に基づいている。
論文 参考訳(メタデータ) (2022-02-22T11:30:55Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。