Fugu-MT 論文翻訳(概要): Systematic Generalization in Language Models Scales with Information Entropy

論文の概要: Systematic Generalization in Language Models Scales with Information Entropy

arxiv url: http://arxiv.org/abs/2505.13089v1
Date: Mon, 19 May 2025 13:23:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.610045
Title: Systematic Generalization in Language Models Scales with Information Entropy
Title（参考訳）: 情報エントロピーを考慮した言語モデルの体系的一般化
Authors: Sondre Wold, Lucas Georges Gabriel Charpentier, Étienne Simon,
Abstract要約: 本稿では, 学習データにおける成分分布のエントロピーによって, 体系的一般化の1つの側面が説明できることを示す。我々の研究は、体系的な一般化と情報効率を結びつけるものであり、高いエントロピーでの成功は、組み込まれた事前知識がなくても達成できることを示す。
参考スコア（独自算出の注目度）: 0.5461938536945721
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Systematic generalization remains challenging for current language models, which are known to be both sensitive to semantically similar permutations of the input and to struggle with known concepts presented in novel contexts. Although benchmarks exist for assessing compositional behavior, it is unclear how to measure the difficulty of a systematic generalization problem. In this work, we show how one aspect of systematic generalization can be described by the entropy of the distribution of component parts in the training data. We formalize a framework for measuring entropy in a sequence-to-sequence task and find that the performance of popular model architectures scales with the entropy. Our work connects systematic generalization to information efficiency, and our results indicate that success at high entropy can be achieved even without built-in priors, and that success at low entropy can serve as a target for assessing progress towards robust systematic generalization.
Abstract（参考訳）: 体系的一般化は、入力の意味論的に類似した置換に敏感であることと、新しい文脈で提示された既知の概念と競合することの両方で知られている現在の言語モデルにとって依然として困難である。構成行動を評価するためのベンチマークは存在するが、体系的な一般化問題の難しさをどう測定するかは定かではない。本研究では,学習データに含まれる成分の分布のエントロピーによって,体系的一般化の1つの側面が説明できることを示す。シーケンス・ツー・シーケンスのタスクにおいてエントロピーを測定するためのフレームワークを形式化し、一般的なモデルアーキテクチャの性能がエントロピーとともにスケールすることを確認する。我々の研究は、体系的な一般化と情報効率を結びつけ、高いエントロピーの成功は、組み込まれなくても達成可能であることを示し、低エントロピーの成功は、堅牢な体系的な一般化に向けた進歩を評価するための標的となることを示唆している。

関連論文リスト

Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey [0.9218181299449681]
構成性、体系性の中核的な側面は、MLモデルにおいて望ましい性質である。既存のベンチマークとモデルは、主に振る舞いの体系性に焦点を当てている。ハドリーの体系的一般化の分類に基づいて、行動的体系性がどのようにテストされるかを分析する。
論文参考訳（メタデータ） (2025-06-04T21:22:38Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
A Hybrid System for Systematic Generalization in Simple Arithmetic Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文参考訳（メタデータ） (2023-06-29T18:35:41Z)
Revisiting the Compositional Generalization Abilities of Neural Sequence Models [23.665350744415004]
一般的なSCANベンチマークで導入されたワンショットプリミティブな一般化に焦点を当てる。トレーニング分布をシンプルかつ直感的に修正することで、標準的なSeq-to-seqモデルでほぼ完璧な一般化性能が得られることを示す。
論文参考訳（メタデータ） (2022-03-14T18:03:21Z)
Does Pre-training Induce Systematic Inference? How Masked Language Models Acquire Commonsense Knowledge [91.15301779076187]
プレトレーニング中のBERTモデルのミニバッチに言語知識を導入し、モデルがサポート対象の推論にどの程度うまく一般化するかを評価する。一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。
論文参考訳（メタデータ） (2021-12-16T03:13:04Z)
Structure-Preserving Learning Using Gaussian Processes and Variational Integrators [62.31425348954686]
本稿では,機械系の古典力学に対する変分積分器と,ガウス過程の回帰による残留力学の学習の組み合わせを提案する。我々は、既知のキネマティック制約を持つシステムへのアプローチを拡張し、予測の不確実性に関する公式な境界を提供する。
論文参考訳（メタデータ） (2021-12-10T11:09:29Z)
Symbolic Brittleness in Sequence Models: on Systematic Generalization in Symbolic Mathematics [38.62999063710003]
我々は、テストセットを超えて体系的に一般化する必要があるため、記号的数学的積分の問題を考察する。本稿では,問題領域の構造と検証器へのアクセスを活かした一般化評価手法を開発する。本研究では,手動テストスイートと遺伝的アルゴリズムの両方を用いて,ロバスト性,構成性,分布外一般化を実現する上での課題を示す。
論文参考訳（メタデータ） (2021-09-28T18:50:15Z)
Bootstrapping Generalization of Process Models Discovered From Event Data [10.574698833115589]
一般化は、発見されたモデルがシステムの将来の実行をいかにうまく記述するかを定量化しようとする。サンプルに基づいて個体群の特性を推定するためにブートストラップ法を用いる。実験は、産業環境でのアプローチの実現可能性を示す。
論文参考訳（メタデータ） (2021-07-08T14:35:56Z)
Probing Linguistic Systematicity [11.690179162556353]
ニューラルモデルがしばしば非体系的に一般化する証拠が蓄積されている。ネットワークアーキテクチャが非体系的に一般化できる方法を特定し、なぜそのような一般化が不満足なのかについて議論する。
論文参考訳（メタデータ） (2020-05-08T23:31:31Z)
Generalized Entropy Regularization or: There's Nothing Special about Label Smoothing [83.78668073898001]
本稿では, ラベル平滑化を含むエントロピー正則化器群を紹介する。モデル性能のばらつきはモデルのエントロピーによって大きく説明できる。我々は,他のエントロピー正規化手法の使用を推奨する。
論文参考訳（メタデータ） (2020-05-02T12:46:28Z)
On dissipative symplectic integration with applications to gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文参考訳（メタデータ） (2020-04-15T00:36:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。