論文の概要: Datasets for Verb Alternations across Languages: BLM Templates and Data Augmentation Strategies
- arxiv url: http://arxiv.org/abs/2603.15295v1
- Date: Mon, 16 Mar 2026 13:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.403158
- Title: Datasets for Verb Alternations across Languages: BLM Templates and Data Augmentation Strategies
- Title(参考訳): 言語間の動詞交代のためのデータセット:BLMテンプレートとデータ拡張戦略
- Authors: Giuseppe Samo, Paola Merlo,
- Abstract要約: 本研究は,動詞の交替に関する体系的なクロス文知識を探索するために,4言語を対象としたパラダイムベースデータセットを提案する。
データセットは何千ものBlackbird Language Matrices (BLM)問題で構成されている。
我々は、英語、イタリア語、ドイツ語、ヘブライ語で単純なベースラインのパフォーマンス結果を提供し、データセットの診断的有用性を示す。
- 参考スコア(独自算出の注目度): 1.0857263744676489
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have shown remarkable performance across various sentence-based linguistic phenomena, yet their ability to capture cross-sentence paradigmatic patterns, such as verb alternations, remains underexplored. In this work, we present curated paradigm-based datasets for four languages, designed to probe systematic cross-sentence knowledge of verb alternations (change-of-state and object-drop constructions in English, German and Italian, and Hebrew binyanim). The datasets comprise thousands of the Blackbird Language Matrices (BLMs) problems. The BLM task -- an RPM/ARC-like task devised specifically for language -- is a controlled linguistic puzzle where models must select the sentence that completes a pattern according to syntactic and semantic rules. We introduce three types of templates varying in complexity and apply linguistically-informed data augmentation strategies across synthetic and natural data. We provide simple baseline performance results across English, Italian, German, and Hebrew, that demonstrate the diagnostic usefulness of the datasets.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な文ベースの言語現象において顕著な性能を示してきたが、動詞の交替のようなクロス文のパラダイムパターンを捉える能力はいまだに未熟である。
本研究は,動詞の交替に関する体系的なクロスセンス知識(英語・ドイツ語・イタリア語・ヘブライ語・ビニャニムにおける状態変化・オブジェクト・ドロップ構成)を探索するために,4言語を対象としたパラダイムベースデータセットをキュレートしたものである。
データセットは何千ものBlackbird Language Matrices (BLM)問題で構成されている。
BLMタスク - 言語用に特別に考案されたRPM/ARCのようなタスク - は制御された言語パズルであり、モデルが構文および意味規則に従ってパターンを完成させる文を選択する必要がある。
複雑度が異なる3種類のテンプレートを導入し、合成データと自然データに言語的にインフォームドされたデータ拡張戦略を適用した。
我々は、英語、イタリア語、ドイツ語、ヘブライ語で単純なベースラインのパフォーマンス結果を提供し、データセットの診断的有用性を示す。
関連論文リスト
- Blackbird Language Matrices: A Framework to Investigate the Linguistic Competence of Language Models [2.1390972559320653]
本稿では,インテリジェンステストにインスパイアされた新しい言語タスク,Blackbird Language Matrices (BLM)タスクについて述べる。
BLMデータセット、その構築とベンチマーク、およびチャンキングと体系性に関するターゲット実験を説明する。
論文 参考訳(メタデータ) (2026-02-24T14:45:08Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Exploring Italian sentence embeddings properties through multi-tasking [1.4335183427838039]
本研究では,事前学習言語モデルを用いて構築された文表現が,特定の構文情報や意味情報をエンコードする方法について検討する。
本研究では,タスクに関連する情報を含む表現や,BLMタスクに埋め込まれた文の圧縮を,2段階のアーキテクチャで個別にモデル化する。
文構造 -- フレーズ/チャンクのシーケンスとチャンクプロパティがタスク間で共有できることを期待していましたが、パフォーマンスとエラー分析は、異なるタスクの手がかりが、文の埋め込みにおいて異なる方法でエンコードされていることを示しています。
論文 参考訳(メタデータ) (2024-09-10T16:22:18Z) - Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [80.43859162884353]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Blackbird's language matrices (BLMs): a new benchmark to investigate
disentangled generalisation in neural networks [2.5567566997688034]
ブラックバードの言語行列(BLM)は,ラヴェンの進行行列の言語的変種をテストするために開発された,新しい文法的データセットである。
このデータセットは44800の文から構成されており、現在のモデルにおける文法的合意規則の言語的熟達の調査を支援するために生成的に構築されている。
この言語タスクと、それをインスタンス化するデータは、一般化と抽象化を理解するために、新しい挑戦的なテストベッドを提供することを示す。
論文 参考訳(メタデータ) (2022-05-22T16:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。