論文の概要: Which Word Orders Facilitate Length Generalization in LMs? An Investigation with GCG-Based Artificial Languages
- arxiv url: http://arxiv.org/abs/2510.12722v1
- Date: Tue, 14 Oct 2025 17:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.40571
- Title: Which Word Orders Facilitate Length Generalization in LMs? An Investigation with GCG-Based Artificial Languages
- Title(参考訳): LMの長文一般化をめざす語順 : GCGに基づく人工言語を用いた検討
- Authors: Nadine El-Naggar, Tatsuki Kuribayashi, Ted Briscoe,
- Abstract要約: 言語モデル (LM) は, 稀で不明瞭な言語モデルよりも, 典型的に頻繁な文法的特性を優先する帰納的バイアスを持つかを検討する。
我々は、一般化カテゴリー文法(GCG)を採用することにより、文脈自由ALの形式化を拡大する。
我々の評価は、未確認の長文を処理できるLMの一般化能力に重点を置いている。
- 参考スコア(独自算出の注目度): 9.692115036534187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whether language models (LMs) have inductive biases that favor typologically frequent grammatical properties over rare, implausible ones has been investigated, typically using artificial languages (ALs) (White and Cotterell, 2021; Kuribayashi et al., 2024). In this paper, we extend these works from two perspectives. First, we extend their context-free AL formalization by adopting Generalized Categorial Grammar (GCG) (Wood, 2014), which allows ALs to cover attested but previously overlooked constructions, such as unbounded dependency and mildly context-sensitive structures. Second, our evaluation focuses more on the generalization ability of LMs to process unseen longer test sentences. Thus, our ALs better capture features of natural languages and our experimental paradigm leads to clearer conclusions -- typologically plausible word orders tend to be easier for LMs to productively generalize.
- Abstract(参考訳): 言語モデル(LM)が、希少な不明瞭な言語よりも型的に頻繁な文法的特性を好む帰納的バイアスを持つかどうかを、典型的には人工言語(AL)を用いて研究されている(White and Cotterell, 2021; Kuribayashi et al , 2024)。
本稿では,これらの研究を2つの視点から拡張する。
まず, 一般化分類文法 (GCG) (Wood, 2014) を用いて文脈自由なALの形式化を拡張し, 非有界依存や軽微な文脈依存構造など,証明されていないがこれまで見過ごされていた構成をALがカバーできるようにする。
第2に、本評価は、未確認長文処理におけるLMの一般化能力に重点を置いている。
このように、我々のALは自然言語の特徴をよりよく捉え、実験パラダイムはより明確な結論をもたらす。
関連論文リスト
- Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Anything Goes? A Crosslinguistic Study of (Im)possible Language Learning in LMs [14.78046527879077]
言語モデルをトレーニングして、不可能で、タイプミス的に証明されていない言語をモデル化します。
以上の結果から, GPT-2 の小型化により, 検証対象言語と不可能言語との完全分離が達成できないことが明らかとなった。
これらの結果は、LMは人間のような誘導バイアスを示すが、これらのバイアスは人間の学習者よりも弱いことを示唆している。
論文 参考訳(メタデータ) (2025-02-26T04:01:36Z) - Linguistic Generalizations are not Rules: Impacts on Evaluation of LMs [13.700007279857081]
LMがいかにうまく一般化するかの言語学的評価は、自然言語は象徴的な規則によって生成されるという当然の事である。
ここでは、LMが象徴的なルールに従わなかったことはバグではなく機能かもしれないことを示唆する。
新しい発話は、柔軟性、相互関連性、文脈に依存した構成の組み合わせによって生成され、理解される。
論文 参考訳(メタデータ) (2025-02-18T17:40:20Z) - Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。