論文の概要: How Bidirectionality Helps Language Models Learn Better via Dynamic Bottleneck Estimation
- arxiv url: http://arxiv.org/abs/2506.00859v2
- Date: Tue, 03 Jun 2025 03:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.686097
- Title: How Bidirectionality Helps Language Models Learn Better via Dynamic Bottleneck Estimation
- Title(参考訳): 動的ボツネック推定による言語モデルの学習を支援する双方向性
- Authors: Md Kowsher, Nusrat Jahan Prottasha, Shiyun Xu, Shetu Mohanto, Chen Chen, Ozlem Garibay, Niloofar Yousefi,
- Abstract要約: 双方向言語モデルは、自然言語理解タスクにおける一方向モデルよりもコンテキスト理解が優れ、パフォーマンスがよい。
トレーニング中の相互情報を動的かつスケーラブルに推定するFlowNIBを提案する。
両方向モデルが相互情報をより多く保持し,一方向モデルよりも高次元性を示すことを示す。
- 参考スコア(独自算出の注目度): 4.670329628077522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bidirectional language models have better context understanding and perform better than unidirectional models on natural language understanding tasks, yet the theoretical reasons behind this advantage remain unclear. In this work, we investigate this disparity through the lens of the Information Bottleneck (IB) principle, which formalizes a trade-off between compressing input information and preserving task-relevant content. We propose FlowNIB, a dynamic and scalable method for estimating mutual information during training that addresses key limitations of classical IB approaches, including computational intractability and fixed trade-off schedules. Theoretically, we show that bidirectional models retain more mutual information and exhibit higher effective dimensionality than unidirectional models. To support this, we present a generalized framework for measuring representational complexity and prove that bidirectional representations are strictly more informative under mild conditions. We further validate our findings through extensive experiments across multiple models and tasks using FlowNIB, revealing how information is encoded and compressed throughout training. Together, our work provides a principled explanation for the effectiveness of bidirectional architectures and introduces a practical tool for analyzing information flow in deep language models.
- Abstract(参考訳): 双方向言語モデルは、自然言語理解タスクにおける一方向モデルよりも文脈理解が優れ、性能が優れているが、この優位性の背後にある理論的理由は不明である。
本研究では,入力情報の圧縮とタスク関連コンテンツ保存のトレードオフを定式化するInformation Bottleneck(IB)原則のレンズを用いて,この相違について検討する。
本稿では,古典的ISBアプローチの重要な制約に対処するトレーニング中の相互情報を動的かつスケーラブルに推定するFlowNIBを提案する。
理論的には、双方向モデルはより相互情報を保持し、一方向モデルよりも効果的な次元性を示す。
これを支援するために,表現の複雑さを測定するための一般化された枠組みを提案し,軽度条件下では双方向表現が厳密に情報的であることを証明した。
本研究では,FlowNIBを用いた複数のモデルおよびタスクにわたる広範な実験により,学習を通して情報がどのように符号化され圧縮されているかを明らかにする。
本研究は、双方向アーキテクチャの有効性を原則的に説明し、深層言語モデルにおける情報フローを解析するための実践的ツールを提案する。
関連論文リスト
- Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。