論文の概要: Language models struggle with compartmentalization
- arxiv url: http://arxiv.org/abs/2605.19284v1
- Date: Tue, 19 May 2026 03:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.089402
- Title: Language models struggle with compartmentalization
- Title(参考訳): コンパートナライゼーションに苦慮する言語モデル
- Authors: Thomas Vincent Howe, David Wingate,
- Abstract要約: 大規模言語モデル (LLM) は, 統一概念の異なる表現間で, 統計的強度を識別し, 共有できないことを示す。
また、合成並列データが容易に学習されているにもかかわらず、これを改善できないことも示している。
検討したすべての介入は、その効果が異なるプレゼンテーションの数に依存する相転移を示す。
- 参考スコア(独自算出の注目度): 3.7098038388802252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the training data used by large language models (LLMs), the same latent concept is often presented in multiple distinct ways: the same facts appear in English and Swahili; many functions can be expressed in both Python and Haskell; we can express propositions in both formal and natural language. We show that LLMs can exhibit compartmentalization, where they fail to identify and share statistical strength between distinct presentations of unified concepts. In the worst case, LLMs simply learn parallel internal representations of each presentation of the concept, saturating model capacity with redundancies and decreasing sample efficiency with the number of such presentations. We also demonstrate that synthetic parallel data can fail to improve this despite being easily learned itself. Under this framework, we find that, for small models, early multilingual learning is nearly entirely compartmentalized. Finally, all interventions that we study exhibit a phase transition in which their effectiveness depends on the number of distinct presentations, suggesting that the language modeling objective may only inconsistently unify representations.
- Abstract(参考訳): 大規模言語モデル(LLM)が使用するトレーニングデータでは、同じ事実が英語とスワヒリ語で現れること、PythonとHaskellの両方で多くの関数を表現できること、形式言語と自然言語の両方で命題を表現できること、など、複数の異なる方法で同じ潜在概念が提示されることが多い。
LLMは, 統一概念の異なるプレゼンテーション間で, 統計的強度の識別と共有に失敗し, 分割化が可能であることを示す。
最悪の場合、LLMは概念の各表現の並列的な内部表現を学習し、モデルのキャパシティを冗長性で飽和させ、そのような表示数でサンプル効率を低下させる。
また、合成並列データが容易に学習されているにもかかわらず、これを改善できないことも示している。
この枠組みの下では、小さなモデルでは、早期多言語学習はほぼ完全に構成化されている。
最後に, 言語モデリングの目的は, 表現を不整合に統一することしかできないことを示唆し, その効果が異なるプレゼンテーション数に依存する相転移を示す。
関連論文リスト
- Language-Specific Latent Process Hinders Cross-Lingual Performance [38.36668133949413]
大規模言語モデル(LLM)は言語間移動が可能なが、異なる言語で書かれたのと同じクエリで入力されたときに一貫性のない出力を生成することができる。
言語間の表現類似度を測定し,LLMの暗黙的なステップを解釈するためにロジットレンズを適用し,多言語多選択推論問題の解法を提案する。
分析の結果,LLMは共通意味空間で作業するのではなく,言語間で異なる表現に依存しているため,不整合性を予測でき,精度が低いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-19T14:10:15Z) - Feasibility with Language Models for Open-World Compositional Zero-Shot Learning [96.6544564242316]
オープンワールド構成ゼロショット学習では、全ての状態オブジェクトの組み合わせは目に見えないクラスと見なされる。
本研究は、外部補助知識を用いて状態-対象の組み合わせの実現可能性を決定することに焦点を当てる。
論文 参考訳(メタデータ) (2025-05-16T12:37:08Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。