論文の概要: Markovian Transformers for Informative Language Modeling
- arxiv url: http://arxiv.org/abs/2404.18988v3
- Date: Tue, 08 Oct 2024 22:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:29.534391
- Title: Markovian Transformers for Informative Language Modeling
- Title(参考訳): インフォーマティブ言語モデリングのためのマルコフ変換器
- Authors: Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett,
- Abstract要約: CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望である。
最近の研究は、解釈可能性への実践的応用において重要な課題を浮き彫りにした。
本稿では,中間的なCoTテキストによる次トーケン予測を導出し,CoTが因果的負荷分散であることを保証する手法を提案する。
- 参考スコア(独自算出の注目度): 0.9642500063568188
- License:
- Abstract: Chain-of-Thought (CoT) reasoning holds great promise for explaining the outputs of language models, but recent studies have highlighted significant challenges in its practical application for interpretability. We propose to address this issue via two key components: a technique to factor next-token prediction through intermediate CoT text, ensuring the CoT is causally load-bearing, and a reinforcement learning approach to train CoT to predict future tokens independently of other context. This results in "Markovian" language models, where CoT serves as a fixed-size state for future token prediction. Our approach optimizes for "informativeness" -- the improvement in next-token predictions using a trained CoT compared to a baseline. We demonstrate our method's effectiveness using Proximal Policy Optimization (PPO) on arithmetic problems and achieve an 11% performance boost on the GSM8K benchmark using Mistral 7B Inst V2. The increased sensitivity of model performance to CoT perturbations provides strong evidence of CoT reliance. This work advances the development of more transparent and interpretable language models, potentially enabling their extension to arbitrarily long contexts and enhancing AI reasoning capabilities across various domains.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望であるが、最近の研究は、解釈可能性に対する実践的応用において、大きな課題を浮き彫りにした。
我々は,この問題を,中間的CoTテキストを通じて次トーケン予測を予測し,CoTが因果的ロードベアリングであることを保証する技術と,CoTに他の文脈に依存しない未来のトークンを予測するための強化学習アプローチという,2つの重要なコンポーネントによって解決することを提案する。
これは、CoTが将来のトークン予測のための固定サイズの状態として機能する"マルコフ的"言語モデルをもたらす。
このアプローチでは,トレーニング済みのCoTをベースラインと比較して,次のトーン予測の改善を"インフォーマティブネス"に最適化しています。
算術問題に対するPPOを用いた手法の有効性を実証し,Mistral 7B Inst V2を用いたGSM8Kベンチマークで11%の性能向上を実現した。
CoT摂動に対するモデル性能の感度の上昇はCoT依存の強い証拠となる。
この作業は、より透明で解釈可能な言語モデルの開発を前進させ、その拡張が任意に長いコンテキストに到達し、さまざまなドメインにわたるAI推論能力を向上する可能性がある。
関連論文リスト
- Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.988614978933934]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
本手法は,LMがテキストの根底にある因果的概念を学習できることを示す,堅牢な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:13:55Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。