論文の概要: Overthinking the Truth: Understanding how Language Models Process False
Demonstrations
- arxiv url: http://arxiv.org/abs/2307.09476v3
- Date: Tue, 12 Mar 2024 07:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:49:17.832080
- Title: Overthinking the Truth: Understanding how Language Models Process False
Demonstrations
- Title(参考訳): 真実を再考する: 言語モデルがどのように偽のデモを処理するかを理解する
- Authors: Danny Halawi, Jean-Stanislas Denain, Jacob Steinhardt
- Abstract要約: モデルの内部表現のレンズを通して有害な模倣を研究する。
我々は「過剰思考」と「偽誘導頭部」の2つの関連する現象を同定する。
- 参考スコア(独自算出の注目度): 32.29658741345911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models can imitate complex patterns through few-shot
learning, enabling them to complete challenging tasks without fine-tuning.
However, imitation can also lead models to reproduce inaccuracies or harmful
content if present in the context. We study harmful imitation through the lens
of a model's internal representations, and identify two related phenomena:
"overthinking" and "false induction heads". The first phenomenon, overthinking,
appears when we decode predictions from intermediate layers, given correct vs.
incorrect few-shot demonstrations. At early layers, both demonstrations induce
similar model behavior, but the behavior diverges sharply at some "critical
layer", after which the accuracy given incorrect demonstrations progressively
decreases. The second phenomenon, false induction heads, are a possible
mechanistic cause of overthinking: these are heads in late layers that attend
to and copy false information from previous demonstrations, and whose ablation
reduces overthinking. Beyond scientific understanding, our results suggest that
studying intermediate model computations could be a promising avenue for
understanding and guarding against harmful model behaviors.
- Abstract(参考訳): 現代の言語モデルは、わずかな学習を通じて複雑なパターンを模倣することができ、微調整することなく挑戦的なタスクを完了できる。
しかし、模倣によってモデルが不正確さや有害なコンテンツの再現に繋がることもある。
モデルの内部表現のレンズを通して有害な模倣を研究し,「過度な思考」と「偽誘導ヘッド」の2つの関連する現象を同定する。
中間層から予測をデコードするときに現れる最初の現象は、不正確な数発のデモに対して正しいものである。
初期の層では、両方のデモが類似したモデルの振る舞いを誘導するが、その振る舞いは、ある「クリティカルな層」で鋭く発散し、その後、間違ったデモの精度が徐々に低下する。
第2の現象である偽誘導頭部は、過度に考え直される可能性があり、これらは、過去の実証から偽の情報を受け取り、コピーする後期層の頭であり、アブレーションによって過度に考え直される。
科学的理解以外にも,中間モデル計算の研究は,有害なモデル行動に対する理解と保護に有望な手段である可能性が示唆された。
関連論文リスト
- No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models [14.535583931446807]
我々は,非ハロゲン化生成モデルの学習可能性を分析する理論的枠組みを開発する。
学習プロセスに実際の事実と整合した帰納的バイアスを組み込むことが重要であることを示す。
論文 参考訳(メタデータ) (2024-10-24T23:57:11Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Class-wise Activation Unravelling the Engima of Deep Double Descent [0.0]
二重降下は、機械学習領域内の反直観的な側面を示す。
本研究では,二重降下現象を再考し,その発生状況について考察した。
論文 参考訳(メタデータ) (2024-05-13T12:07:48Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Contrastive Chain-of-Thought Prompting [74.10511560147293]
本稿では,言語モデル推論を強化するために,思考の対照的な連鎖を提案する。
従来の思考の連鎖と比較して,本手法は妥当かつ無効な推論実証を提供する。
推論ベンチマーク実験により、思考の対照的な連鎖は、思考の連鎖の促進に役立てることができることを示した。
論文 参考訳(メタデータ) (2023-11-15T18:54:01Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z) - Modeling Event Plausibility with Consistent Conceptual Abstraction [29.69958315418181]
トランスフォーマビリティモデルでは,語彙階層の概念クラス間で有意な一貫性が認められないことを示す。
本稿では,モデル一貫性を強制する簡単なポストホック法を提案する。
論文 参考訳(メタデータ) (2021-04-20T21:08:32Z) - Exploring Simple Siamese Representation Learning [68.37628268182185]
i) 負のサンプル対, (ii) 大きいバッチ, (iii) 運動量エンコーダを用いて, 単純なシームズネットワークは意味のある表現を学習できることを示す。
実験により, 崩壊解は損失や構造に対して存在するが, 崩壊を防止する上では, 停止段階の操作が重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2020-11-20T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。