Fugu-MT 論文翻訳(概要): Chain-of-Thought Unfaithfulness as Disguised Accuracy

論文の概要: Chain-of-Thought Unfaithfulness as Disguised Accuracy

arxiv url: http://arxiv.org/abs/2402.14897v1
Date: Thu, 22 Feb 2024 17:23:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 16:37:18.023257
Title: Chain-of-Thought Unfaithfulness as Disguised Accuracy
Title（参考訳）: 偽りの正確さとしての思考の連鎖
Authors: Oliver Bentham, Nathan Stringham, Ana Marasovi\'c
Abstract要約: CoT(Chain-of-Thought)世代は、大きな言語モデルの内部計算(LLM)と一致している。 CoT忠実性の代用として、arXiv:2307.13702 はモデルが CoT に依存しているかどうかを測定する指標を提案する。
参考スコア（独自算出の注目度）: 10.475314139367462
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the extent to which Chain-of-Thought (CoT) generations align with a large language model's (LLM) internal computations is critical for deciding whether to trust an LLM's output. As a proxy for CoT faithfulness, arXiv:2307.13702 propose a metric that measures a model's dependence on its CoT for producing an answer. Within a single family of proprietary models, they find that LLMs exhibit a scaling-then-inverse-scaling relationship between model size and their measure of faithfulness, and that a 13 billion parameter model exhibits increased faithfulness compared to models ranging from 810 million to 175 billion parameters in size. We evaluate whether these results generalize as a property of all LLMs. We replicate their experimental setup with three different families of models and, under specific conditions, successfully reproduce the scaling trends for CoT faithfulness they report. However, we discover that simply changing the order of answer choices in the prompt can reduce the metric by 73 percentage points. The faithfulness metric is also highly correlated ($R^2$ = 0.91) with accuracy, raising doubts about its validity as a construct for evaluating faithfulness.
Abstract（参考訳）: CoT(Chain-of-Thought)世代が大きな言語モデル(LLM)の内部計算とどのように一致しているかを理解することは、LLMの出力を信頼するかを決定するために重要である。 CoT忠実性の代用として、arXiv:2307.13702 はモデルが CoT に依存しているかどうかを測定する指標を提案する。プロプライエタリなモデルの1つのファミリの中で、LLMはモデルサイズと忠実度の間のスケーリングと逆スケーリングの関係を示し、13億のパラメータモデルは8億1000万から1750億のモデルと比較して忠実度を増大させる。これらの結果が全てのLLMの特性として一般化されるかどうかを評価する。実験装置を3種類のモデルで再現し、特定の条件下では、CoT忠実度に対するスケーリング傾向を再現することに成功した。しかし、プロンプトにおける回答選択の順序を変えるだけで、メートル法を73パーセント減らすことができることがわかった。忠実度計量は精度(r^2$ = 0.91)と高い相関関係にあり、忠実度を評価するための構成としての妥当性に疑問を投げかける。

関連論文リスト

Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference [10.009730627424629]
大規模言語モデル(LLM)は、さまざまな自然言語タスクに対する推論に革命をもたらした。本稿では,信頼度推定に基づいて最適モデルを動的に選択する信頼性駆動型戦略を提案する。
論文参考訳（メタデータ） (2026-02-25T16:38:03Z)
On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文参考訳（メタデータ） (2026-02-14T01:07:45Z)
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。 RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文参考訳（メタデータ） (2025-09-29T01:40:26Z)
Compressed Models are NOT Trust-equivalent to Their Large Counterparts [0.8124699127636158]
大規模なディープラーニングモデルは、リソース制約のある環境にデプロイする前に圧縮されることが多い。圧縮モデルの予測は、オリジナルの大モデルの予測を信頼するのと同じように信頼できますか? 本稿では,信頼等価性評価のための2次元フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-19T05:49:39Z)
LENS: Learning Ensemble Confidence from Neural States for Multi-LLM Answer Integration [0.0]
大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。 LENS(Learning ENsemble confidence from Neural States)は、内部表現を分析してモデル信頼度を推定する新しい手法である。
論文参考訳（メタデータ） (2025-07-31T00:35:45Z)
Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文参考訳（メタデータ） (2025-05-29T20:45:18Z)
Verbosity Tradeoffs and the Impact of Scale on the Faithfulness of LLM Self-Explanations [19.32573526975115]
我々は13家族の75モデルにわたる反事実的忠実度を分析した。この研究は、相関対実テスト(CCT)の簡易版であるphi-CCTとF-AUROCの2つの新しい指標を動機付けている。より大きく、より有能なモデルは、私たちが考慮しているすべての指標に一貫して忠実です。
論文参考訳（メタデータ） (2025-03-17T17:59:39Z)
Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文参考訳（メタデータ） (2025-03-03T07:45:04Z)
SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果推論を統合し,素因果関係を緩和する因果報酬モデリング手法を提案する。提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文参考訳（メタデータ） (2025-01-16T16:00:37Z)
REEF: Representation Encoding Fingerprints for Large Language Models [53.679712605506715]
REEFは、被疑者モデルと被害者モデルの表現との中心となるカーネルアライメントの類似性を計算し、比較する。このトレーニング不要のREEFは、モデルの一般的な能力を損なうことなく、シーケンシャルな微調整、プルーニング、モデルマージ、置換に堅牢である。
論文参考訳（メタデータ） (2024-10-18T08:27:02Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文参考訳（メタデータ） (2023-10-07T23:21:25Z)
Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文参考訳（メタデータ） (2023-07-19T12:11:15Z)
Mitigating Spurious Correlations in Multi-modal Models during Fine-tuning [18.45898471459533]
モデル一般化を低下させたり、間違った理由でモデルが正しいことを導いたという豪華な相関は、現実世界のデプロイメントにおいて大きな堅牢性に関する懸念の1つです。本稿では,特定の関心領域の微調整において,刺激的な相関に対処する新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-08T05:20:33Z)
Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。 Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。 LASSO を用いて Model-to-Match フレームワークを運用する。
論文参考訳（メタデータ） (2023-02-23T00:43:03Z)
Benign-Overfitting in Conditional Average Treatment Effect Prediction with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文参考訳（メタデータ） (2022-02-10T18:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。