論文の概要: Comparing Natural and Synthetic Structured Data: A Study of the Passive Verb Alternation in French and Italian
- arxiv url: http://arxiv.org/abs/2603.25227v1
- Date: Thu, 26 Mar 2026 09:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.21499
- Title: Comparing Natural and Synthetic Structured Data: A Study of the Passive Verb Alternation in French and Italian
- Title(参考訳): 自然データと合成データの比較--フランス語とイタリア語の受動的動詞交代について
- Authors: Giuseppe Samo, Paola Merlo,
- Abstract要約: 本研究では,自然データと合成データが大規模言語モデル(LLM)の学習および評価に与える影響を比較検討する。
我々はBlackbird Language Matrices (BLMs) を用いて、文集合全体にわたる下位パターンの言語知識を探索するために設計された構造化データセットを用いている。
実験により、モデルが合成データセット上で訓練および試験を行う際には天井性能が達成されるが、それらは自然文に確実に一般化されないことが示された。
- 参考スコア(独自算出の注目度): 1.0857263744676489
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study compares the impact of natural and synthetic data on training and evaluating large language models (LLMs), using the case of passive verb alternation in French and Italian. We use Blackbird Language Matrices (BLMs), structured datasets designed to probe linguistic knowledge of underlying patterns across sentence sets. We compare structured templates instantiated with natural sentences extracted from Universal Dependencies to structured templates of synthetic sentences. Experiments show that while models achieve ceiling performance when trained and tested on synthetic datasets, they do not reliably generalize to natural sentences. In contrast, models trained on natural data exhibit robust performance across both natural and synthetic test suites, demonstrating their superior ability to capture abstract linguistic patterns. These results corroborate the value of natural data and of structured set ups in linguistic evaluation for probing LLMs' syntactic and semantic knowledge.
- Abstract(参考訳): 本研究では,フランス語とイタリア語の受動的動詞交替を例に,自然データと合成データが大規模言語モデル(LLM)の訓練および評価に与える影響を比較検討した。
我々はBlackbird Language Matrices (BLMs) を用いて、文集合全体にわたる下位パターンの言語知識を探索するために設計された構造化データセットを用いている。
本研究では,Universal Dependenciesから抽出した自然文にインスタンス化された構造化テンプレートと,合成文の構造化テンプレートを比較した。
実験により、モデルが合成データセット上で訓練および試験を行う際には天井性能が達成されるが、それらは自然文に確実に一般化されないことが示された。
対照的に、自然データに基づいてトレーニングされたモデルは、自然および合成テストスイートの両方で堅牢なパフォーマンスを示し、抽象言語パターンをキャプチャする優れた能力を示している。
これらの結果は,LLMの構文的・意味的知識を探索するための言語的評価において,自然データの価値と構造化された設定値とを相関させる。
関連論文リスト
- Artificial Conversations, Real Results: Fostering Language Detection with Synthetic Data [0.2687400480679652]
本研究では,合成データを生成するパイプラインと,大規模言語モデルが生成する合成データの有効性に影響を与える要因を総合的に検討する。
我々の結果は、ほとんどのケースと異なるメトリクスにおいて、合成データに基づいて訓練された微調整されたモデルが、実データと合成テストデータセットの両方において、他のモデルよりも一貫して優れていたことを示している。
論文 参考訳(メタデータ) (2025-03-31T13:22:34Z) - Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference Models [0.0]
本稿では,トークンベースおよび文ベースの拡張手法を用いて,対実文ペアを生成する手法を提案する。
提案手法は,NLIモデルの性能とロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-28T03:43:25Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on
a Syntactic Task [70.29624135819884]
目的の構文テンプレート上で,BERTが語彙非依存の主観値数アグリーメント(NA)を実行できる範囲について検討した。
名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。
論文 参考訳(メタデータ) (2022-04-14T11:33:15Z) - Improving Compositional Generalization with Self-Training for
Data-to-Text Generation [36.973617793800315]
データ・テキスト・タスクにおける現在の生成モデルの合成一般化について検討する。
構成的気象データセットの構造変化をシミュレートすることにより、T5モデルは目に見えない構造に一般化できないことを示す。
擬似応答選択のための細調整BLEURTを用いた自己学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T04:26:56Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Learning Music Helps You Read: Using Transfer to Study Linguistic
Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。
語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文 参考訳(メタデータ) (2020-04-30T06:24:03Z) - Stochastic Natural Language Generation Using Dependency Information [0.7995360025953929]
本稿では,自然言語テキストを生成するコーパスベースモデルを提案する。
我々のモデルは、特徴集合を通じてトレーニングデータから依存関係を符号化し、与えられた意味表現のための新しい依存木を生成する。
本モデルでは, 品質だけでなく, 情報性, 自然性といった面においても, 高品質な発話を生成できることが示されている。
論文 参考訳(メタデータ) (2020-01-12T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。