論文の概要: Markovian Transformers for Informative Language Modeling
- arxiv url: http://arxiv.org/abs/2404.18988v3
- Date: Tue, 08 Oct 2024 22:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:29.534391
- Title: Markovian Transformers for Informative Language Modeling
- Title(参考訳): インフォーマティブ言語モデリングのためのマルコフ変換器
- Authors: Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett,
- Abstract要約: CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望である。
最近の研究は、解釈可能性への実践的応用において重要な課題を浮き彫りにした。
本稿では,中間的なCoTテキストによる次トーケン予測を導出し,CoTが因果的負荷分散であることを保証する手法を提案する。
- 参考スコア(独自算出の注目度): 0.9642500063568188
- License:
- Abstract: Chain-of-Thought (CoT) reasoning holds great promise for explaining the outputs of language models, but recent studies have highlighted significant challenges in its practical application for interpretability. We propose to address this issue via two key components: a technique to factor next-token prediction through intermediate CoT text, ensuring the CoT is causally load-bearing, and a reinforcement learning approach to train CoT to predict future tokens independently of other context. This results in "Markovian" language models, where CoT serves as a fixed-size state for future token prediction. Our approach optimizes for "informativeness" -- the improvement in next-token predictions using a trained CoT compared to a baseline. We demonstrate our method's effectiveness using Proximal Policy Optimization (PPO) on arithmetic problems and achieve an 11% performance boost on the GSM8K benchmark using Mistral 7B Inst V2. The increased sensitivity of model performance to CoT perturbations provides strong evidence of CoT reliance. This work advances the development of more transparent and interpretable language models, potentially enabling their extension to arbitrarily long contexts and enhancing AI reasoning capabilities across various domains.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望であるが、最近の研究は、解釈可能性に対する実践的応用において、大きな課題を浮き彫りにした。
我々は,この問題を,中間的CoTテキストを通じて次トーケン予測を予測し,CoTが因果的ロードベアリングであることを保証する技術と,CoTに他の文脈に依存しない未来のトークンを予測するための強化学習アプローチという,2つの重要なコンポーネントによって解決することを提案する。
これは、CoTが将来のトークン予測のための固定サイズの状態として機能する"マルコフ的"言語モデルをもたらす。
このアプローチでは,トレーニング済みのCoTをベースラインと比較して,次のトーン予測の改善を"インフォーマティブネス"に最適化しています。
算術問題に対するPPOを用いた手法の有効性を実証し,Mistral 7B Inst V2を用いたGSM8Kベンチマークで11%の性能向上を実現した。
CoT摂動に対するモデル性能の感度の上昇はCoT依存の強い証拠となる。
この作業は、より透明で解釈可能な言語モデルの開発を前進させ、その拡張が任意に長いコンテキストに到達し、さまざまなドメインにわたるAI推論能力を向上する可能性がある。
関連論文リスト
- Uncovering Latent Chain of Thought Vectors in Language Models [2.6089354079273512]
本研究では,特定のタスクから派生した「ステアリングベクトル」を用いて,言語モデルの前方通過をバイアスする,ステアリングベクトルの手法について検討する。
自然言語を介さずに思考の連鎖(CoT)推論を行うための言語モデルに適用する。
このアプローチはCoT応答に対して一貫したステアリングをもたらし、CoTへの微調整モデルの従来の方法よりも計算量が少なくなる。
論文 参考訳(メタデータ) (2024-09-21T05:58:07Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Non-Autoregressive Neural Machine Translation: A Call for Clarity [3.1447111126465]
我々は、非自己回帰的翻訳モデルを改善するために提案されたいくつかの手法を再検討する。
我々は,長文予測やCTCに基づくアーキテクチャ変種を用いて,強力なベースラインを確立するための新たな洞察を提供する。
4つの翻訳タスクに対してsareBLEUを用いて,標準化されたBLEU,chrF++,TERスコアをコントリビュートする。
論文 参考訳(メタデータ) (2022-05-21T12:15:22Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。