論文の概要: Mitigating Position-Shift Failures in Text-Based Modular Arithmetic via Position Curriculum and Template Diversity
- arxiv url: http://arxiv.org/abs/2601.04283v1
- Date: Wed, 07 Jan 2026 13:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.86092
- Title: Mitigating Position-Shift Failures in Text-Based Modular Arithmetic via Position Curriculum and Template Diversity
- Title(参考訳): テキストに基づくモジュラー算術における位置ずれの軽減 : 位置カリキュラムとテンプレートの多様性を通して
- Authors: Nikolay Yudin,
- Abstract要約: 文字レベルの変換器を学習し、テキストからモジュラー加算を計算する。
分布内精度だけでなく,入力形式変化下でのロバスト性にも着目する。
- 参考スコア(独自算出の注目度): 0.8460698440162889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building on insights from the grokking literature, we study character-level Transformers trained to compute modular addition from text, and focus on robustness under input-format variation rather than only in-distribution accuracy. We identify a previously under-emphasized failure mode: models that achieve high in-distribution accuracy can fail catastrophically when the same expression is shifted to different absolute character positions ("position shift") or presented under out-of-distribution natural-language templates. Using a disjoint-pair split over all ordered pairs for p=97, we show that a baseline model reaches strong in-distribution performance yet collapses under position shift and template OOD. We then introduce a simple training recipe that combines (i) explicit expression boundary markers, (ii) position curriculum that broadens the range of absolute positions seen during training, (iii) diverse template mixtures, and (iv) consistency training across multiple variants per example. Across three seeds, this intervention substantially improves robustness to position shift and template OOD while maintaining high in-distribution accuracy, whereas an ALiBi-style ablation fails to learn the task under our setup. Our results suggest that steering procedural generalization under noisy supervision benefits from explicitly training invariances that are otherwise absent from the data distribution, and we provide a reproducible evaluation protocol and artifacts.
- Abstract(参考訳): 本研究は, 文字レベルの変換器を用いて, テキストからの加法加法を学習し, 分布内精度だけでなく, 入力形式変化下での頑健性に着目した。
分散精度の高いモデルでは、同じ表現が異なる絶対的な文字位置(配置シフト)に移動されたり、アウト・オブ・ディストリビューションの自然言語テンプレートで表示される場合、破滅的に失敗する可能性がある。
p=97の全ての順序対に対する解離対分割を用いて, ベースラインモデルが, 位置ずれやテンプレートOODの下では崩壊することを示す。
次に、簡単なトレーニングレシピを紹介します。
(i)明示的な表現境界マーカー
二 訓練中に見る絶対的な位置の範囲を広げる位置カリキュラム
(三)多種多様なテンプレート混合物、及び
(4) 例ごとに複数の変種にまたがる一貫性のトレーニング。
3種にまたがって,この介入により位置ずれやOODのテンプレート化に対する堅牢性が著しく向上する一方,ALiBi型アブレーションは我々の設定下での作業の学習に失敗する。
提案手法は,データ分布から外れた分散を明示的に訓練することによる,ノイズの多い監督下での手続き的一般化の促進と,再現可能な評価プロトコルとアーティファクトの提供を示唆する。
関連論文リスト
- Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [84.74716380180428]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - Invariant Anomaly Detection under Distribution Shifts: A Causal
Perspective [6.845698872290768]
異常検出(AD、Anomaly Detection)は、異常なサンプルを識別する機械学習タスクである。
分散シフトの制約の下では、トレーニングサンプルとテストサンプルが同じ分布から引き出されるという仮定が崩壊する。
我々は,異常検出モデルのレジリエンスを,異なる種類の分布シフトに高めようとしている。
論文 参考訳(メタデータ) (2023-12-21T23:20:47Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Style Curriculum Learning for Robust Medical Image Segmentation [62.02435329931057]
深部セグメンテーションモデルは、トレーニングデータセットとテストデータセットの間の画像強度の分散シフトによって、しばしば劣化する。
本稿では,そのような分散シフトが存在する場合に,ロバストなセグメンテーションを確保するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-01T08:56:24Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - From Anchor Generation to Distribution Alignment: Learning a
Discriminative Embedding Space for Zero-Shot Recognition [46.47620562161315]
ゼロショット学習(ZSL)では、分類されるサンプルは通常、属性などのサイド情報テンプレートに投影される。
我々は,DAGDA(Distriminative Anchor Generation and Distribution Alignment Model)と呼ばれる新しいフレームワークを提案する。
まず, 拡散型グラフ畳み込みネットワークを用いて, クラス情報と側情報の相互作用を明示的にモデル化し, 識別的アンカーを生成する手法を提案する。
第二に、アンカー空間におけるサンプルと対応するアンカーとをさらに整合させるため、細粒度に分布を洗練させることを目的として、意味的関係正則化を導入する。
論文 参考訳(メタデータ) (2020-02-10T05:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。