論文の概要: Language Models Need Inductive Biases to Count Inductively
- arxiv url: http://arxiv.org/abs/2405.20131v2
- Date: Fri, 25 Oct 2024 14:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:19.605107
- Title: Language Models Need Inductive Biases to Count Inductively
- Title(参考訳): 言語モデルには帰納的バイアスが必要である
- Authors: Yingshan Chang, Yonatan Bisk,
- Abstract要約: カウントは一般化の基本的な例であり、ペアノの公理の数学的レンズを通して見るか、数えることを学ぶ子供たちのための認知科学文献を見るかのどちらかである。
この研究は、数えられるようなトレーニング言語モデルに関する広範な経験的な結果を提供する。
従来のRNNは帰納的カウントを自明に達成するが、トランスフォーマーはドメイン外カウントに位置埋め込みを頼らなければならない。
- 参考スコア(独自算出の注目度): 31.25792515137003
- License:
- Abstract: Counting is a fundamental example of generalization, whether viewed through the mathematical lens of Peano's axioms defining the natural numbers or the cognitive science literature for children learning to count. The argument holds for both cases that learning to count means learning to count infinitely. While few papers have tried to distill transformer "reasoning" to the simplest case of counting, investigating length generalization does occur throughout the literature. In the "train short, test long" paradigm of NLP, length refers to the training sentence length. In formal language recognition, length refers to the input sequence length, or the maximum stack size induced by a pushdown automata. In general problem solving, length refers to the number of hops in a deductive reasoning chain or the recursion depth. For all cases, counting is central to task success. And crucially, generalizing counting inductively is central to success on OOD instances. This work provides extensive empirical results on training language models to count. We experiment with architectures ranging from RNNs, Transformers, State-Space Models and RWKV. We present carefully-designed task formats, auxiliary tasks and positional embeddings to avoid limitations in generalization with OOD-position and OOD-vocabulary. We find that while traditional RNNs trivially achieve inductive counting, Transformers have to rely on positional embeddings to count out-of-domain. As counting is the basis for many arguments concerning the expressivity of Transformers, our finding calls for the community to reexamine the application scope of primitive functions defined in formal characterizations. Finally, modern RNNs also largely underperform traditional RNNs in generalizing counting inductively. We discuss how design choices that enable parallelized training of modern RNNs cause them to lose merits of a recurrent nature.
- Abstract(参考訳): カウントは一般化の基本的な例であり、ピアーノの公理の数学的レンズを通して自然数を定義するか、子どもが数えることを学ぶための認知科学の文献を見るかのどちらかである。
この議論は、両方の場合において、学習が数えられるということは無限に数えられるということを意味する。
数える最も単純なケースにトランスフォーマーの「推論」を蒸留しようとする論文はほとんどないが、長さの一般化の調査は文学全体を通して行われる。
NLP の "train short, test long" パラダイムでは、長さは訓練文の長さを指す。
形式言語認識では、長さは入力シーケンスの長さ、またはプッシュダウンオートマトンによって誘導される最大スタックサイズを指す。
一般の問題解決において、長さ(英: length)とは、帰納的推論鎖のホップ数または再帰深さを指す。
すべてのケースにおいて、カウントはタスクの成功の中心です。
そして重要なのは、カウントをインダクティブに一般化することが、OODインスタンスの成功の中心であることだ。
この研究は、数えられるようなトレーニング言語モデルに関する広範な経験的な結果を提供する。
我々は、RNN、Transformer、State-Space Models、RWKVといったアーキテクチャを実験する。
我々は, OOD-position や OOD-vocabulary による一般化の限界を回避するために, 慎重に設計されたタスク形式, 補助タスク, 位置埋め込みを提案する。
従来のRNNは帰納的カウントを自明に達成するが、トランスフォーマーはドメイン外カウントに位置埋め込みを頼らなければならない。
数値化がトランスフォーマーの表現性に関する多くの議論の基盤となっているため、我々はコミュニティに対して、形式的特徴付けで定義されたプリミティブ関数の適用範囲を再検討するよう求めている。
最後に、現代のRNNは数え上げをインダクティブに一般化する上で、従来のRNNよりも性能が劣っている。
本稿では,現代のRNNの並列学習を可能にする設計選択が,再帰的特性のメリットを損なう理由について論じる。
関連論文リスト
- Counting Ability of Large Language Models and Impact of Tokenization [17.53620419920189]
大規模言語モデル(LLM)の数え上げ能力に及ぼすトークン化の影響について検討する。
本研究は, LLMのカウント能力に及ぼすトークン化の影響について検討し, 入力トークン化差に基づく性能変化を明らかにする。
論文 参考訳(メタデータ) (2024-10-25T17:56:24Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデル(LLM)は、実際に目に見えないタスクに一般化するか、大量の事前学習データを記憶することに依存するかという議論を引き起こしている。
本稿では,LLMの出力確率と事前学習データ頻度との相関を計測する,メモリ化,分散メモリ化という拡張された概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 暗記がより大きな役割を果たすことを示した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Theoretical Conditions and Empirical Failure of Bracket Counting on Long
Sequences with Linear Recurrent Networks [11.754328280233628]
線形単一セルネットワークであるRNNについて検討する。
モデルが正確なカウント動作を示す条件を特定する。
線形RNNは、通常、標準手法で訓練された場合の振る舞いをカウントするのに必要かつ十分な条件を満たさないことが観察された。
論文 参考訳(メタデータ) (2023-04-07T13:42:17Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-07-11T14:24:38Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。