Fugu-MT 論文翻訳(概要): Markovian Transformers for Informative Language Modeling

論文の概要: Markovian Transformers for Informative Language Modeling

arxiv url: http://arxiv.org/abs/2404.18988v3
Date: Tue, 08 Oct 2024 22:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 12:57:49.126363
Title: Markovian Transformers for Informative Language Modeling
Title（参考訳）: インフォーマティブ言語モデリングのためのマルコフ変換器
Authors: Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett,
Abstract要約: CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望である。最近の研究は、解釈可能性への実践的応用において重要な課題を浮き彫りにした。本稿では,中間的なCoTテキストによる次トーケン予測を導出し,CoTが因果的負荷分散であることを保証する手法を提案する。
参考スコア（独自算出の注目度）: 0.9642500063568188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chain-of-Thought (CoT) reasoning holds great promise for explaining the outputs of language models, but recent studies have highlighted significant challenges in its practical application for interpretability. We propose to address this issue via two key components: a technique to factor next-token prediction through intermediate CoT text, ensuring the CoT is causally load-bearing, and a reinforcement learning approach to train CoT to predict future tokens independently of other context. This results in "Markovian" language models, where CoT serves as a fixed-size state for future token prediction. Our approach optimizes for "informativeness" -- the improvement in next-token predictions using a trained CoT compared to a baseline. We demonstrate our method's effectiveness using Proximal Policy Optimization (PPO) on arithmetic problems and achieve an 11% performance boost on the GSM8K benchmark using Mistral 7B Inst V2. The increased sensitivity of model performance to CoT perturbations provides strong evidence of CoT reliance. This work advances the development of more transparent and interpretable language models, potentially enabling their extension to arbitrarily long contexts and enhancing AI reasoning capabilities across various domains.
Abstract（参考訳）: CoT(Chain-of-Thought)推論は、言語モデルのアウトプットを説明する上で非常に有望であるが、最近の研究は、解釈可能性に対する実践的応用において、大きな課題を浮き彫りにした。我々は,この問題を,中間的CoTテキストを通じて次トーケン予測を予測し,CoTが因果的ロードベアリングであることを保証する技術と,CoTに他の文脈に依存しない未来のトークンを予測するための強化学習アプローチという,2つの重要なコンポーネントによって解決することを提案する。これは、CoTが将来のトークン予測のための固定サイズの状態として機能する"マルコフ的"言語モデルをもたらす。このアプローチでは,トレーニング済みのCoTをベースラインと比較して,次のトーン予測の改善を"インフォーマティブネス"に最適化しています。算術問題に対するPPOを用いた手法の有効性を実証し,Mistral 7B Inst V2を用いたGSM8Kベンチマークで11%の性能向上を実現した。 CoT摂動に対するモデル性能の感度の上昇はCoT依存の強い証拠となる。この作業は、より透明で解釈可能な言語モデルの開発を前進させ、その拡張が任意に長いコンテキストに到達し、さまざまなドメインにわたるAI推論能力を向上する可能性がある。

関連論文リスト

Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Uncovering Latent Chain of Thought Vectors in Language Models [2.6089354079273512]
本研究では,特定のタスクから派生した「ステアリングベクトル」を用いて,言語モデルの前方通過をバイアスする,ステアリングベクトルの手法について検討する。自然言語を介さずに思考の連鎖(CoT)推論を行うための言語モデルに適用する。このアプローチはCoT応答に対して一貫したステアリングをもたらし、CoTへの微調整モデルの従来の方法よりも計算量が少なくなる。
論文参考訳（メタデータ） (2024-09-21T05:58:07Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文参考訳（メタデータ） (2023-09-28T17:21:33Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。 MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文参考訳（メタデータ） (2023-05-27T03:54:09Z)
Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。出力予測が大幅に変化する特徴を最適化する。本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文参考訳（メタデータ） (2023-05-03T14:48:27Z)
Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs [37.754787051387034]
本稿では,ブレークポイントモデリングと呼ばれる表現学習フレームワークを提案する。私たちのアプローチは、中間表現を構築するために、効率的でエンドツーエンドの方法でモデルをトレーニングします。我々は,従来の表現学習手法よりも,T5に基づく主要なブレークポイント変換器の利点を示す。
論文参考訳（メタデータ） (2022-11-15T07:28:14Z)
Non-Autoregressive Neural Machine Translation: A Call for Clarity [3.1447111126465]
我々は、非自己回帰的翻訳モデルを改善するために提案されたいくつかの手法を再検討する。我々は,長文予測やCTCに基づくアーキテクチャ変種を用いて,強力なベースラインを確立するための新たな洞察を提供する。 4つの翻訳タスクに対してsareBLEUを用いて,標準化されたBLEU,chrF++,TERスコアをコントリビュートする。
論文参考訳（メタデータ） (2022-05-21T12:15:22Z)
Accurate, yet inconsistent? Consistency Analysis on Language Understanding Models [38.03490197822934]
一貫性とは、意味的に類似したコンテキストに対して、同じ予測を生成する能力である。本稿では,言語理解モデル(CALUM)における一貫性解析というフレームワークを提案する。
論文参考訳（メタデータ） (2021-08-15T06:25:07Z)
Investigating the Reordering Capability in CTC-based Non-Autoregressive End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。 CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文参考訳（メタデータ） (2021-05-11T07:48:45Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Explaining and Improving Model Behavior with k Nearest Neighbor Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文参考訳（メタデータ） (2020-10-18T16:55:25Z)
Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文参考訳（メタデータ） (2020-06-25T13:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。