論文の概要: Uncovering Latent Chain of Thought Vectors in Language Models
- arxiv url: http://arxiv.org/abs/2409.14026v3
- Date: Thu, 20 Mar 2025 20:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:54:33.570510
- Title: Uncovering Latent Chain of Thought Vectors in Language Models
- Title(参考訳): 言語モデルにおける思考ベクトルの潜在鎖の発見
- Authors: Jason Zhang, Scott Viteri,
- Abstract要約: 言語モデル(LM)の活性化空間における標的摂動は複雑な推論パターンを符号化できることを示す。
我々は,LMの活性化から導かれる操舵ベクトルを推定時間中にLMに注入し,これらのベクトルが自然言語のプロンプトを必要とせずに,LMのChain-of-Thought(CoT)推論を誘導できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 2.6089354079273512
- License:
- Abstract: In this work, we examine how targeted perturbations in the activation space of Language Models (LMs) can encode complex reasoning patterns. We inject steering vectors, derived from LM activations, into LMs during inference time and study whether these vectors can induce Chain-of-Thought (CoT) reasoning in LMs without the need for natural language prompting. We demonstrate this approach on Llama3 8B Instruct and Mistral 7B v0.2 Instruct and show that activation-space interventions achieve competitive, if not superior, performance compared to traditional CoT prompting across multiple reasoning benchmarks, including GSM8k, MMLU, AGI Eval, and ARC AI2. These findings suggest that neural network activations can encode reasoning patterns, offering a new application of activation space manipulation as a tool for tuning model behavior.
- Abstract(参考訳): 本研究では,言語モデル(LM)の活性化空間における標的摂動が,複雑な推論パターンを符号化する方法について検討する。
我々は,LMの活性化から導かれる操舵ベクトルを推定時間中にLMに注入し,これらのベクトルが自然言語のプロンプトを必要とせずに,LMのChain-of-Thought(CoT)推論を誘導できるかどうかを検討する。
この手法をLlama3 8B InstructとMistral 7B v0.2 Instructで実証し、GSM8k, MMLU, AGI Eval, ARC AI2などの複数の推論ベンチマークを対象とする従来のCoTと比較して、アクティベーション空間の介入が競争力を発揮することを示す。
これらの結果は、ニューラルネットワークのアクティベーションが推論パターンを符号化し、モデルの振る舞いをチューニングするためのツールとしてアクティベーション空間操作の新たな応用をもたらすことを示唆している。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Markovian Transformers for Informative Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
我々は、CoTを「マルコフ」言語モデルにおいて因果的に必要としており、中間のCoTを通して次のトークン予測を分解し、元のプロンプトとは無関係に将来のトークンを予測するよう訓練する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。