論文の概要: Markovian Agents for Informative Language Modeling
- arxiv url: http://arxiv.org/abs/2404.18988v2
- Date: Thu, 23 May 2024 00:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:20:55.775748
- Title: Markovian Agents for Informative Language Modeling
- Title(参考訳): インフォーマティブ言語モデリングのためのマルコフエージェント
- Authors: Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett,
- Abstract要約: CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論をより深く理解することを可能にする。
以前の研究は、LMはCoTの変更にもかかわらず同様の質問に答えることができることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。
本研究では,将来のテキストを予測するのに十分なCoTを生成するための強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.9642500063568188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning could in principle enable a deeper understanding of a language model's (LM) internal reasoning. However, prior work suggests that LMs can answer questions similarly despite changes in their CoT, suggesting that those models are not truly using the CoT. We propose an reinforcement learning technique to produce CoTs that are sufficient alone for predicting future text, independent of other context. This methodology ensures that if the LM can predict future tokens, then it must have used the CoT to understand its context. We formalize the informativeness of a sender to a receiver LM as the degree to which the sender helps the receiver predict their future observations, and we define a "Markovian" LM as one which predicts future text given only a CoT as context. We derive a "Markovian training" procedure by applying our definition of informativeness to a Markovian LM and optimizing via policy gradient and Proximal Policy Optimization (PPO). We demonstrate our training algorithm's effectiveness on fifteen-term arithmetic problems, show the model utilizes the CoT, and externally validate that the generated CoT is meaningful and usable by another model.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論(LM)をより深く理解することを可能にする。
しかし、以前の研究は、LMはCoTの変更にもかかわらず同様の質問に答えることができることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。
本研究では,他の文脈に依存しない将来のテキストを予測するのに十分なCoTを生成するための強化学習手法を提案する。
この方法論は、LMが将来のトークンを予測できるならば、そのコンテキストを理解するためにCoTを使用することを保証します。
我々は,受信機が受信機が将来の観測を予測できる度合いとして送信機から受信機への送信者の情報提供を形式化し,その文脈としてCoTのみを与えられた将来のテキストを予測できる「マルコフ」LMを定義する。
我々は、マルコフ的LMに情報性の定義を適用し、ポリシー勾配とPPO(Proximal Policy Optimization)を介して最適化することで、「マルコフ的訓練(Markovian training)」手順を導出する。
本稿では,15項の算術問題に対するトレーニングアルゴリズムの有効性を実証し,そのモデルがCoTを用いており,生成したCoTが他のモデルで意味があり有用であることを外部で検証する。
関連論文リスト
- Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.988614978933934]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
本手法は,LMがテキストの根底にある因果的概念を学習できることを示す,堅牢な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:13:55Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。