論文の概要: Chain-of-Thought Unfaithfulness as Disguised Accuracy
- arxiv url: http://arxiv.org/abs/2402.14897v1
- Date: Thu, 22 Feb 2024 17:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:37:18.023257
- Title: Chain-of-Thought Unfaithfulness as Disguised Accuracy
- Title(参考訳): 偽りの正確さとしての思考の連鎖
- Authors: Oliver Bentham, Nathan Stringham, Ana Marasovi\'c
- Abstract要約: CoT(Chain-of-Thought)世代は、大きな言語モデルの内部計算(LLM)と一致している。
CoT忠実性の代用として、arXiv:2307.13702 はモデルが CoT に依存しているかどうかを測定する指標を提案する。
- 参考スコア(独自算出の注目度): 10.475314139367462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the extent to which Chain-of-Thought (CoT) generations align
with a large language model's (LLM) internal computations is critical for
deciding whether to trust an LLM's output. As a proxy for CoT faithfulness,
arXiv:2307.13702 propose a metric that measures a model's dependence on its CoT
for producing an answer. Within a single family of proprietary models, they
find that LLMs exhibit a scaling-then-inverse-scaling relationship between
model size and their measure of faithfulness, and that a 13 billion parameter
model exhibits increased faithfulness compared to models ranging from 810
million to 175 billion parameters in size. We evaluate whether these results
generalize as a property of all LLMs. We replicate their experimental setup
with three different families of models and, under specific conditions,
successfully reproduce the scaling trends for CoT faithfulness they report.
However, we discover that simply changing the order of answer choices in the
prompt can reduce the metric by 73 percentage points. The faithfulness metric
is also highly correlated ($R^2$ = 0.91) with accuracy, raising doubts about
its validity as a construct for evaluating faithfulness.
- Abstract(参考訳): CoT(Chain-of-Thought)世代が大きな言語モデル(LLM)の内部計算とどのように一致しているかを理解することは、LLMの出力を信頼するかを決定するために重要である。
CoT忠実性の代用として、arXiv:2307.13702 はモデルが CoT に依存しているかどうかを測定する指標を提案する。
プロプライエタリなモデルの1つのファミリの中で、LLMはモデルサイズと忠実度の間のスケーリングと逆スケーリングの関係を示し、13億のパラメータモデルは8億1000万から1750億のモデルと比較して忠実度を増大させる。
これらの結果が全てのLLMの特性として一般化されるかどうかを評価する。
実験装置を3種類のモデルで再現し、特定の条件下では、CoT忠実度に対するスケーリング傾向を再現することに成功した。
しかし、プロンプトにおける回答選択の順序を変えるだけで、メートル法を73パーセント減らすことができることがわかった。
忠実度計量は精度(r^2$ = 0.91)と高い相関関係にあり、忠実度を評価するための構成としての妥当性に疑問を投げかける。
関連論文リスト
- A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.667380916143971]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。