論文の概要: Markovian Agents for Truthful Language Modeling
- arxiv url: http://arxiv.org/abs/2404.18988v1
- Date: Mon, 29 Apr 2024 17:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:19:58.368092
- Title: Markovian Agents for Truthful Language Modeling
- Title(参考訳): 真理言語モデリングのためのマルコフエージェント
- Authors: Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett,
- Abstract要約: CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論をより深く理解することを可能にする。
以前の研究は、いくつかのLMがCoTの変更にもかかわらず同様の質問に答えていることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。
本稿では,他の文脈に依存しない将来のテキストを予測するのに十分なCoTを生成するためのトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.9642500063568188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning could in principle enable a deeper understanding of a language model's (LM) internal reasoning. However, prior work suggests that some LMs answer questions similarly despite changes in their CoT, suggesting that those models are not truly using the CoT. We propose a training method to produce CoTs that are sufficient alone for predicting future text, independent of other context. This methodology gives a guarantee that if the LM can predict future tokens, then it must have used the CoT to understand its context. We formalize the idea that the truthfulness of a sender to a receiver LM is the degree to which the sender helps the receiver predict their future observations. Then we define a "Markovian" LM as one which predicts future text given only a CoT as context. We derive a "Markovian training" procedure by applying our definition of truthfulness to a Markovian LM and optimizing via policy gradient and Proximal Policy Optimization (PPO). We demonstrate the effectiveness of our training algorithm on long-context arithmetic problems, show that the model utilizes the CoT, and validate that the generated CoT is meaningful and usable by other models.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論(LM)をより深く理解することを可能にする。
しかしながら、以前の研究は、いくつかのLMがCoTの変更にもかかわらず同様の質問に答えていることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。
本稿では,他の文脈に依存しない将来のテキストを予測するのに十分なCoTを生成するためのトレーニング手法を提案する。
この方法論は、LMが将来のトークンを予測できるならば、そのコンテキストを理解するためにCoTを使用することを保証します。
我々は、受信機LMに対する送信者の真偽は、受信機が将来の観測を予測できる程度であるという考えを定式化する。
次に、文脈としてCoTのみを与えられた将来のテキストを予測できる「マルコフ的」LMを定義する。
我々は、マルコフのLMに真理性の定義を適用し、政策勾配とPPO(Proximal Policy Optimization)を介して最適化することで、「マルコフの訓練」(Markovian training)手順を導出する。
長文演算問題に対するトレーニングアルゴリズムの有効性を実証し、このモデルがCoTを用いており、生成したCoTが他のモデルで意味があり有用であることを検証した。
関連論文リスト
- Uncovering Latent Chain of Thought Vectors in Language Models [2.6089354079273512]
本研究では,特定のタスクから派生した「ステアリングベクトル」を用いて,言語モデルの前方通過をバイアスする,ステアリングベクトルの手法について検討する。
自然言語を介さずに思考の連鎖(CoT)推論を行うための言語モデルに適用する。
このアプローチはCoT応答に対して一貫したステアリングをもたらし、CoTへの微調整モデルの従来の方法よりも計算量が少なくなる。
論文 参考訳(メタデータ) (2024-09-21T05:58:07Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Non-Autoregressive Neural Machine Translation: A Call for Clarity [3.1447111126465]
我々は、非自己回帰的翻訳モデルを改善するために提案されたいくつかの手法を再検討する。
我々は,長文予測やCTCに基づくアーキテクチャ変種を用いて,強力なベースラインを確立するための新たな洞察を提供する。
4つの翻訳タスクに対してsareBLEUを用いて,標準化されたBLEU,chrF++,TERスコアをコントリビュートする。
論文 参考訳(メタデータ) (2022-05-21T12:15:22Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。