論文の概要: Representational Homomorphism Predicts and Improves Compositional Generalization In Transformer Language Model
- arxiv url: http://arxiv.org/abs/2601.18858v1
- Date: Mon, 26 Jan 2026 18:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.017524
- Title: Representational Homomorphism Predicts and Improves Compositional Generalization In Transformer Language Model
- Title(参考訳): 変換言語モデルにおける表現同型予測と構成一般化の改善
- Authors: Zhiyu An, Wan Du,
- Abstract要約: ホモモルフィック誤差(homomorphism Error, HE)は、式代数とモデルの隠れ状態空間の間の近似準同型からの偏差を定量化する構造計量である。
SCAN型タスクにおける2つの構成演算子に対してHEをインスタンス化する。
- 参考スコア(独自算出の注目度): 7.764532811300023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional generalization-the ability to interpret novel combinations of familiar components-remains a persistent challenge for neural networks. Behavioral evaluations reveal when models fail but offer limited insight into why failures arise at the representational level. We introduce Homomorphism Error (HE), a structural metric that quantifies deviations from approximate homomorphisms between the expression algebra and a model's hidden-state space. We instantiate HE for two compositional operators in SCAN-style tasks: modifier HE for unary composition and sequence HE for binary composition, measured by learning representation-level operators that predict composed representations from their parts. Across controlled experiments with small decoder-only Transformers, HE predicts out-of-distribution (OOD) compositional generalization under noise injection, achieving R^2 = 0.73 correlation between modifier HE and OOD accuracy. Ablations show that model depth has minimal effect on either HE or OOD accuracy, training data coverage exhibits threshold effects (insufficient coverage sharply increases HE and degrades OOD performance), and randomly inserted noise tokens systematically increase HE. Finally, we test if HE-regularized training improves OOD accuracy. Experiment shows that explicitly enforcing low modifier HE during training significantly reduces modifier HE (p = 1.1x10-4) and sequence HE (p = 0.001) and yields a statistically significant improvement in OOD accuracy (p = 0.023). Together, these results indicate the potential of HE to be both a diagnostic and an actionable training signal for improving compositional generalization. Code to reproduce our experiments is open-sourced.
- Abstract(参考訳): 構成一般化 - 慣れ親しんだコンポーネントの新たな組み合わせを解釈する能力は、ニューラルネットワークにとって永続的な課題として残されている。
行動評価は、モデルが失敗した場合を明らかにしますが、なぜ障害が表現レベルで発生したのかについて、限られた洞察を与えます。
表現代数学とモデルの隠れ状態空間の間の近似準同型から逸脱を定量化する構造計量であるホモモルフィック・エラー(HE)を導入する。
SCANスタイルのタスクでは、2つの構成演算子に対してHEをインスタンス化する: 単項合成のための修飾子HEと二項合成のためのシーケンスHEを、それらの部分から合成表現を予測する表現レベル演算子を学習することによって測定する。
小型デコーダのみの変換器を用いた制御実験全体で、HEはノイズ注入下での構成一般化(OOD)を予測し、修正器HEとOODの精度の相関をR^2 = 0.73とする。
アブレーションにより、モデル深度はHEまたはOODの精度に最小限の効果を示し、トレーニングデータカバレッジはしきい値効果を示す(不十分なカバレッジはHEを急激に増加させ、OOD性能を低下させる)。
最後に、HE-regularized trainingがOOD精度を向上させるかどうかを検証する。
実験によると、訓練中に低変調率HEを明示的に強制すると、修飾率HE(p = 1.1x10-4)とシーケンスHE(p = 0.001)が著しく減少し、OOD精度が統計的に有意に向上する(p = 0.023)。
これらの結果から, HEは, 構成一般化を改善するための診断信号と実行可能な訓練信号の両方である可能性が示唆された。
私たちの実験を再現するコードはオープンソースです。
関連論文リスト
- Sneaking Syntax into Transformer Language Models with Tree Regularization [33.74552367356904]
構文的帰納バイアスの導入は、トランスフォーマー言語モデルにおけるより堅牢でデータ効率のよい学習を解放する可能性がある。
ここでは,銀パースからの括弧決定を微分可能性制約の集合に変換する補助的損失関数であるTreeRegを紹介する。
TreeRegは標準のLM目標とシームレスに統合され、アーキテクチャの変更は不要である。
論文 参考訳(メタデータ) (2024-11-28T03:27:48Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Improved OOD Generalization via Conditional Invariant Regularizer [43.62211060412388]
クラスラベルが与えられた場合、スプリアス属性の条件付き独立モデルがOOD一般であることが示される。
このような条件独立度を測定するために,OOD誤差を制御する計量条件変分(CSV)を提案する。
この問題を解決するために,ミニケーブ収束率のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-14T06:34:21Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Exploring Covariate and Concept Shift for Detection and Calibration of
Out-of-Distribution Data [77.27338842609153]
キャラクタリゼーションにより、OODデータの検出と信頼性校正には、それぞれのシフトに対する感度が重要であることが明らかになった。
分布内データのみを用いて両シフトでのOOD検出を改善するために,幾何学的に着想を得た手法を提案する。
我々は,OOD検出とキャリブレーションの両面で,異なるタイプのシフトの下でうまく機能する手法を最初に提案する。
論文 参考訳(メタデータ) (2021-10-28T15:42:55Z) - Diversity Enhanced Active Learning with Strictly Proper Scoring Rules [4.81450893955064]
テキスト分類のための能動学習(AL)のための獲得関数について検討する。
我々は、期待損失削減法(ELR)を、ログ確率や負平均二乗誤差などの(厳密な)スコアの増加を推定するために変換する。
BEMPSを用いた平均二乗誤差とログ確率を用いることで、ロバストな取得関数が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:02:11Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Word-level confidence estimation for RNN transducers [7.12355127219356]
本稿では、リカレント・ネットワーク・トランスデューサ(RNN-T)を用いた音声認識(ASR)システムに適した軽量神経信頼モデルを提案する。
他の既存手法と比較して,本モデルは, (a) 認識された単語に関連付けられた時間情報を用いて計算複雑性を低減し, (b) サブワードと単語列をマッピングするためのシンプルでエレガントなトリックを利用する。
論文 参考訳(メタデータ) (2021-09-28T18:38:00Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。