論文の概要: Preventing Language Models From Hiding Their Reasoning
- arxiv url: http://arxiv.org/abs/2310.18512v1
- Date: Fri, 27 Oct 2023 22:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:06:31.628707
- Title: Preventing Language Models From Hiding Their Reasoning
- Title(参考訳): 言語モデルが推論を隠すのを防ぐ
- Authors: Fabien Roger, Ryan Greenblatt
- Abstract要約: 大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。
この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。
言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often benefit from intermediate steps of
reasoning to generate answers to complex problems. When these intermediate
steps of reasoning are used to monitor the activity of the model, it is
essential that this explicit reasoning is faithful, i.e. that it reflects what
the model is actually reasoning about. In this work, we focus on one potential
way intermediate steps of reasoning could be unfaithful: encoded reasoning,
where an LLM could encode intermediate steps of reasoning in the generated text
in a way that is not understandable to human readers. We show that language
models can be trained to make use of encoded reasoning to get higher
performance without the user understanding the intermediate steps of reasoning.
We argue that, as language models get stronger, this behavior becomes more
likely to appear naturally. Finally, we describe a methodology that enables the
evaluation of defenses against encoded reasoning, and show that, under the
right conditions, paraphrasing successfully prevents even the best encoding
schemes we built from encoding more than 3 bits of information per KB of text.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な問題に対する回答を生成する中間ステップの恩恵を受けることが多い。
このような推論の中間段階をモデルの活動を監視するために使用する場合、この明示的な推論が忠実であること、すなわちモデルが実際に推論していることを反映することが不可欠である。
本研究では,LLMが生成したテキスト中の推論の中間ステップを人間の読み手には理解できない方法で符号化できるような,推論の中間ステップを符号化する手法について検討する。
言語モデルは、ユーザが推論の中間ステップを理解することなく、符号化推論を利用して高い性能を得るように訓練できることを示す。
言語モデルが強くなるにつれて、この行動が自然に現れる傾向が強くなる、と我々は主張する。
最後に,エンコードされた推論に対する防御の評価を可能にする手法について述べるとともに,適切な条件下では,我々が構築した最善のエンコードスキームでさえ,テキスト1kbあたり3ビット以上の情報をエンコードすることができないことを示す。
関連論文リスト
- P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - Empower Nested Boolean Logic via Self-Supervised Curriculum Learning [67.46052028752327]
大規模言語モデルを含む事前学習された言語モデルは、多言語論理に直面するランダムセレクタのように振る舞う。
この基本的能力で言語モデルを強化するために,本稿では,新たな自己教師付き学習手法であるtextitCurriculum Logical Reasoning (textscClr) を提案する。
論文 参考訳(メタデータ) (2023-10-09T06:54:02Z) - Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic [19.476840373850653]
大規模言語モデルは、その推論手順が論理原理に制約されないため、幻覚を示す。
記号論理に根ざした原理を活用する自己改善促進フレームワークであるLoT(Logical Thoughts)を提案する。
算術,コモンセンス,記号,因果推論,社会問題など多種多様な領域における言語課題に対する実験的評価は,論理学による推論の強化の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-23T11:21:12Z) - Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models [34.22393697176282]
実世界の象徴的手法の適用性と適応性を広げるためのメタ推論を提案する。
この方法はLLMに対して、推論に依存しない意味情報を汎用的な記号表現に分解する権限を与える。
我々は、算術、記号、論理的推論といった従来の推論タスクを含む10以上のデータセットと、理論の推論のようなより複雑な対話的推論タスクに関する広範な実験を行う。
論文 参考訳(メタデータ) (2023-06-30T17:38:10Z) - Deductive Verification of Chain-of-Thought Reasoning [22.79166959432764]
大型言語モデル(LLM)は、様々な推論タスクを実行する上で、Chain-of-Thoughtの恩恵を受ける。
CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積エラーをもたらす可能性がある。
本研究では,自然言語に基づく帰納的推論形式であるNatural Programを提案する。
論文 参考訳(メタデータ) (2023-06-06T17:18:56Z) - The Magic of IF: Investigating Causal Reasoning Abilities in Large
Language Models of Code [74.3873029963285]
因果関係を特定する能力である因果推論は、人間の思考において重要である。
コードプロンプト付きコード-LLMは因果推論において著しく優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:02:58Z) - Learning to Reason and Memorize with Self-Notes [51.17609489687686]
大規模言語モデルは多段階推論に苦しむことが示されている。
本稿では,これらの問題を解決するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-01T14:02:48Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。