Fugu-MT 論文翻訳(概要): Language Models Need Inductive Biases to Count Inductively

論文の概要: Language Models Need Inductive Biases to Count Inductively

arxiv url: http://arxiv.org/abs/2405.20131v1
Date: Thu, 30 May 2024 15:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:48:54.980108
Title: Language Models Need Inductive Biases to Count Inductively
Title（参考訳）: 言語モデルには帰納的バイアスが必要である
Authors: Yingshan Chang, Yonatan Bisk,
Abstract要約: カウントは一般化の基本的な例であり、ペアノの公理の数学的レンズを通して見るか、数えることを学ぶ子供たちのための認知科学文献を見るかのどちらかである。この研究は、数えられるようなトレーニング言語モデルに関する広範な経験的な結果を提供する。従来のRNNは帰納的カウントを自明に達成するが、トランスフォーマーはドメイン外カウントに位置埋め込みを頼らなければならない。
参考スコア（独自算出の注目度）: 31.25792515137003
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Counting is a fundamental example of generalization, whether viewed through the mathematical lens of Peano's axioms defining the natural numbers or the cognitive science literature for children learning to count. The argument holds for both cases that learning to count means learning to count infinitely. While few papers have tried to distill transformer "reasoning" to the simplest case of counting, investigating length generalization does occur throughout the literature. In the "train short, test long" paradigm of NLP, length refers to the training sentence length. In formal language recognition, length refers to the input sequence length, or the maximum stack size induced by a pushdown automata. In general problem solving, length refers to the number of hops in a deductive reasoning chain or the recursion depth. For all cases, counting is central to task success. And crucially, generalizing counting inductively is central to success on OOD instances. This work provides extensive empirical results on training language models to count. We experiment with architectures ranging from RNNs, Transformers, State-Space Models and RWKV. We present carefully-designed task formats, auxiliary tasks and positional embeddings to avoid limitations in generalization with OOD-position and OOD-vocabulary. We find that while traditional RNNs trivially achieve inductive counting, Transformers have to rely on positional embeddings to count out-of-domain. As counting is the basis for many arguments concerning the expressivity of Transformers, our finding calls for the community to reexamine the application scope of primitive functions defined in formal characterizations. Finally, modern RNNs also largely underperform traditional RNNs in generalizing counting inductively. We discuss how design choices that enable parallelized training of modern RNNs cause them to lose merits of a recurrent nature.
Abstract（参考訳）: カウントは一般化の基本的な例であり、ピアーノの公理の数学的レンズを通して自然数を定義するか、子どもが数えることを学ぶための認知科学の文献を見るかのどちらかである。この議論は、両方の場合において、学習が数えられるということは無限に数えられるということを意味する。数える最も単純なケースにトランスフォーマーの「推論」を蒸留しようとする論文はほとんどないが、長さの一般化の調査は文学全体を通して行われる。 NLP の "train short, test long" パラダイムでは、長さは訓練文の長さを指す。形式言語認識では、長さは入力シーケンスの長さ、またはプッシュダウンオートマトンによって誘導される最大スタックサイズを指す。一般の問題解決において、長さ(英: length)とは、帰納的推論鎖のホップ数または再帰深さを指す。すべてのケースにおいて、カウントはタスクの成功の中心です。そして重要なのは、カウントをインダクティブに一般化することが、OODインスタンスの成功の中心であることだ。この研究は、数えられるようなトレーニング言語モデルに関する広範な経験的な結果を提供する。我々は、RNN、Transformer、State-Space Models、RWKVといったアーキテクチャを実験する。我々は, OOD-position や OOD-vocabulary による一般化の限界を回避するために, 慎重に設計されたタスク形式, 補助タスク, 位置埋め込みを提案する。従来のRNNは帰納的カウントを自明に達成するが、トランスフォーマーはドメイン外カウントに位置埋め込みを頼らなければならない。数値化がトランスフォーマーの表現性に関する多くの議論の基盤となっているため、我々はコミュニティに対して、形式的特徴付けで定義されたプリミティブ関数の適用範囲を再検討するよう求めている。最後に、現代のRNNは数え上げをインダクティブに一般化する上で、従来のRNNよりも性能が劣っている。本稿では,現代のRNNの並列学習を可能にする設計選択が,再帰的特性のメリットを損なう理由について論じる。

関連論文リスト

The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文参考訳（メタデータ） (2025-02-24T03:01:03Z)
Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文参考訳（メタデータ） (2024-07-20T21:24:40Z)
What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。 RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。 RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文参考訳（メタデータ） (2024-06-06T17:34:24Z)
Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文参考訳（メタデータ） (2023-09-14T03:36:01Z)
Theoretical Conditions and Empirical Failure of Bracket Counting on Long Sequences with Linear Recurrent Networks [11.754328280233628]
線形単一セルネットワークであるRNNについて検討する。モデルが正確なカウント動作を示す条件を特定する。線形RNNは、通常、標準手法で訓練された場合の振る舞いをカウントするのに必要かつ十分な条件を満たさないことが観察された。
論文参考訳（メタデータ） (2023-04-07T13:42:17Z)
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文参考訳（メタデータ） (2022-10-11T00:57:19Z)
Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文参考訳（メタデータ） (2022-07-11T14:24:38Z)
Is Supervised Syntactic Parsing Beneficial for Language Understanding? An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文参考訳（メタデータ） (2020-08-15T21:03:36Z)
Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。 RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文参考訳（メタデータ） (2020-04-04T14:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。