論文の概要: Inference-Time-Compute: More Faithful? A Research Note
- arxiv url: http://arxiv.org/abs/2501.08156v1
- Date: Tue, 14 Jan 2025 14:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:42.642053
- Title: Inference-Time-Compute: More Faithful? A Research Note
- Title(参考訳): 推論時間計算:より忠実か?研究ノート
- Authors: James Chua, Owain Evans,
- Abstract要約: 忠実なCoT試験において,2つのITCモデル(Qwen-2.5とGemini-2に基づく)を評価した。
MMLU質問に対する回答に影響を与えるプロンプトにおいて,モデルが明瞭に手がかりを提示するかどうかを検証する。
私たちがテストしたITCモデルは、忠実性を大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 2.0429566123690455
- License:
- Abstract: Models trained specifically to generate long Chains of Thought (CoTs) have recently achieved impressive results. We refer to these models as Inference-Time-Compute (ITC) models. Are the CoTs of ITC models more faithful compared to traditional non-ITC models? We evaluate two ITC models (based on Qwen-2.5 and Gemini-2) on an existing test of faithful CoT To measure faithfulness, we test if models articulate cues in their prompt that influence their answers to MMLU questions. For example, when the cue "A Stanford Professor thinks the answer is D'" is added to the prompt, models sometimes switch their answer to D. In such cases, the Gemini ITC model articulates the cue 54% of the time, compared to 14% for the non-ITC Gemini. We evaluate 7 types of cue, such as misleading few-shot examples and anchoring on past responses. ITC models articulate cues that influence them much more reliably than all the 6 non-ITC models tested, such as Claude-3.5-Sonnet and GPT-4o, which often articulate close to 0% of the time. However, our study has important limitations. We evaluate only two ITC models -- we cannot evaluate OpenAI's SOTA o1 model. We also lack details about the training of these ITC models, making it hard to attribute our findings to specific processes. We think faithfulness of CoT is an important property for AI Safety. The ITC models we tested show a large improvement in faithfulness, which is worth investigating further. To speed up this investigation, we release these early results as a research note.
- Abstract(参考訳): 思考の長い連鎖(CoT)を生成するために特別に訓練されたモデルは、最近、印象的な結果を得た。
これらのモデルをITC(Inference-Time-Compute)モデルと呼ぶ。
ITCモデルのCoTは、従来の非ITCモデルよりも忠実なのでしょうか?
忠実度を測定するため、MMLU質問に対する回答に影響を及ぼすプロンプトでモデルが明確な手がかりを提示するかどうかを検証した。
例えば、"A Stanford Professor think the answer is D'"というキューがプロンプトに追加されると、モデルが解答をDに切り替えることがある。
過去の事例を誤解させるような7種類のキューを評価し,過去の反応をアンカーする。
ITCモデルは、Claude-3.5-Sonnet や GPT-4o など、テストされた6つの非ITCモデルよりもはるかに信頼性の高い結果が得られた。
しかし、我々の研究には重要な制限がある。
私たちは2つのITCモデルのみを評価します。OpenAIのSOTA o1モデルは評価できません。
また、これらのITCモデルのトレーニングの詳細も欠如しています。
私たちは、CoTの忠実さはAI安全にとって重要な財産であると考えています。
私たちがテストしたITCモデルは、忠実性を大幅に改善したことを示している。
この調査をスピードアップするため、これらの早期結果を研究ノートとして公開する。
関連論文リスト
- Do Large Language Models Reason Causally Like Us? Even Better? [7.749713014052951]
大きな言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示している。
我々は,コライダーグラフに基づくタスクを用いて,人間と4つのLDMの因果推論を比較した。
LLMは、モデル、コンテキスト、タスクに基づくアライメントシフトを伴って、人間のようなスペクトルから規範的推論へと因果関係を推論する。
論文 参考訳(メタデータ) (2025-02-14T15:09:15Z) - Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning [0.0]
大規模言語モデル(LLM)は、近年、様々な分野の質問に答える能力で大きな人気を集めている。
本稿では,オープンソースLLMの性能評価のための解析手法を提案する。
我々は,物理に関する話題における解答精度と変数の関係に注目した。
論文 参考訳(メタデータ) (2024-11-18T13:42:13Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - An Assessment of Model-On-Model Deception [0.0]
Llama-2 7B, 13B, 70B, および GPT-3.5 を用いて, MMLU の質問に対する誤った回答を正当化することにより, 1万以上の誤解を招く説明のデータセットを作成する。
さらに悪いことに、すべての能力のモデルは他人を誤解させるのに成功しており、より有能なモデルは詐欺に抵抗するのにわずかに優れている。
論文 参考訳(メタデータ) (2024-05-10T23:24:18Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To? [0.0]
ドメイン内精度を総合的に測定する標準評価基準は誤解を招くものであると論じる。
これらの問題を克服するためのGQA-OODベンチマークを提案する。
論文 参考訳(メタデータ) (2020-06-09T08:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。