論文の概要: Markovian Agents for Informative Language Modeling
- arxiv url: http://arxiv.org/abs/2404.18988v2
- Date: Thu, 23 May 2024 00:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:20:55.775748
- Title: Markovian Agents for Informative Language Modeling
- Title(参考訳): インフォーマティブ言語モデリングのためのマルコフエージェント
- Authors: Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett,
- Abstract要約: CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論をより深く理解することを可能にする。
以前の研究は、LMはCoTの変更にもかかわらず同様の質問に答えることができることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。
本研究では,将来のテキストを予測するのに十分なCoTを生成するための強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.9642500063568188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning could in principle enable a deeper understanding of a language model's (LM) internal reasoning. However, prior work suggests that LMs can answer questions similarly despite changes in their CoT, suggesting that those models are not truly using the CoT. We propose an reinforcement learning technique to produce CoTs that are sufficient alone for predicting future text, independent of other context. This methodology ensures that if the LM can predict future tokens, then it must have used the CoT to understand its context. We formalize the informativeness of a sender to a receiver LM as the degree to which the sender helps the receiver predict their future observations, and we define a "Markovian" LM as one which predicts future text given only a CoT as context. We derive a "Markovian training" procedure by applying our definition of informativeness to a Markovian LM and optimizing via policy gradient and Proximal Policy Optimization (PPO). We demonstrate our training algorithm's effectiveness on fifteen-term arithmetic problems, show the model utilizes the CoT, and externally validate that the generated CoT is meaningful and usable by another model.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論(LM)をより深く理解することを可能にする。
しかし、以前の研究は、LMはCoTの変更にもかかわらず同様の質問に答えることができることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。
本研究では,他の文脈に依存しない将来のテキストを予測するのに十分なCoTを生成するための強化学習手法を提案する。
この方法論は、LMが将来のトークンを予測できるならば、そのコンテキストを理解するためにCoTを使用することを保証します。
我々は,受信機が受信機が将来の観測を予測できる度合いとして送信機から受信機への送信者の情報提供を形式化し,その文脈としてCoTのみを与えられた将来のテキストを予測できる「マルコフ」LMを定義する。
我々は、マルコフ的LMに情報性の定義を適用し、ポリシー勾配とPPO(Proximal Policy Optimization)を介して最適化することで、「マルコフ的訓練(Markovian training)」手順を導出する。
本稿では,15項の算術問題に対するトレーニングアルゴリズムの有効性を実証し,そのモデルがCoTを用いており,生成したCoTが他のモデルで意味があり有用であることを外部で検証する。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Uncovering Latent Chain of Thought Vectors in Language Models [2.6089354079273512]
本研究では,特定のタスクから派生した「ステアリングベクトル」を用いて,言語モデルの前方通過をバイアスする,ステアリングベクトルの手法について検討する。
自然言語を介さずに思考の連鎖(CoT)推論を行うための言語モデルに適用する。
このアプローチはCoT応答に対して一貫したステアリングをもたらし、CoTへの微調整モデルの従来の方法よりも計算量が少なくなる。
論文 参考訳(メタデータ) (2024-09-21T05:58:07Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs [37.754787051387034]
本稿では,ブレークポイントモデリングと呼ばれる表現学習フレームワークを提案する。
私たちのアプローチは、中間表現を構築するために、効率的でエンドツーエンドの方法でモデルをトレーニングします。
我々は,従来の表現学習手法よりも,T5に基づく主要なブレークポイント変換器の利点を示す。
論文 参考訳(メタデータ) (2022-11-15T07:28:14Z) - Accurate, yet inconsistent? Consistency Analysis on Language
Understanding Models [38.03490197822934]
一貫性とは、意味的に類似したコンテキストに対して、同じ予測を生成する能力である。
本稿では,言語理解モデル(CALUM)における一貫性解析というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T06:25:07Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。