Fugu-MT 論文翻訳(概要): Blackbird Language Matrices: A Framework to Investigate the Linguistic Competence of Language Models

論文の概要: Blackbird Language Matrices: A Framework to Investigate the Linguistic Competence of Language Models

arxiv url: http://arxiv.org/abs/2602.20966v1
Date: Tue, 24 Feb 2026 14:45:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.792613
Title: Blackbird Language Matrices: A Framework to Investigate the Linguistic Competence of Language Models
Title（参考訳）: Blackbird Language Matrices:言語モデルの言語的コンピテンスを調査するためのフレームワーク
Authors: Paola Merlo, Chunyang Jiang, Giuseppe Samo, Vivi Nastase,
Abstract要約: 本稿では,インテリジェンステストにインスパイアされた新しい言語タスク,Blackbird Language Matrices (BLM)タスクについて述べる。 BLMデータセット、その構築とベンチマーク、およびチャンキングと体系性に関するターゲット実験を説明する。
参考スコア（独自算出の注目度）: 2.1390972559320653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This article describes a novel language task, the Blackbird Language Matrices (BLM) task, inspired by intelligence tests, and illustrates the BLM datasets, their construction and benchmarking, and targeted experiments on chunking and systematicity. BLMs are multiple-choice problems, structured at multiple levels: within each sentence, across the input sequence, within each candidate answer. Because of their rich structure, these curated, but naturalistic datasets are key to answer some core questions about current large language models abilities: do LLMs detect linguistic objects and their properties? Do they detect and use systematic patterns across sentences? Are they more prone to linguistic or reasoning errors, and how do these interact? We show that BLMs, while challenging, can be solved at good levels of performance, in more than one language, with simple baseline models or, at better performance levels, with more tailored models. We show that their representations contain the grammatical objects and attributes relevant to solve a linguistic task. We also show that these solutions are reached by detecting systematic patterns across sentences. The paper supports the point of view that curated, structured datasets support multi-faceted investigations of properties of language and large language models. Because they present a curated, articulated structure, because they comprise both learning contexts and expected answers, and because they are partly built by hand, BLMs fall in the category of datasets that can support explainability investigations, and be useful to ask why large language models behave the way they do.
Abstract（参考訳）: 本稿では,新たな言語タスクであるBlackbird Language Matrices (BLM)タスクについて述べるとともに,BLMデータセット,その構築とベンチマーク,チャンキングと体系性に関するターゲット実験について説明する。 BLMは、複数のレベル(各文内、入力シーケンス内、各候補回答内)で構成される多重選択問題である。リッチな構造のため、これらのキュレートされているが、自然主義的なデータセットは、現在の大きな言語モデル能力に関する中核的な疑問に答える鍵となる。文間で体系的なパターンを検出し、使用するか? 言語学や推論の誤りに傾向があり、どのように相互作用するのか? BLMは難易度は高いが、複数の言語で、単純なベースラインモデルで、あるいはより優れたパフォーマンスレベルで、より適切なモデルで、優れたレベルのパフォーマンスで解決できることを示す。これらの表現は言語課題の解決に関係のある文法的対象や属性を含むことを示す。また,各文の体系的パターンを検出することで,これらの解に到達できることも示している。本稿は,言語モデルと大規模言語モデルの性質を多面的に調査する上で,キュレートされた構造化データセットが有効である,という視点を支持する。学習コンテキストと期待された回答の両方で構成されており、部分的に手作業で構築されているため、BLMは説明可能性の調査を支援するデータセットのカテゴリに該当し、なぜ大きな言語モデルが彼らのように振る舞うのかを問うのに役立つ。

関連論文リスト

Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。言語固有のデコーディングと多言語表現を共有できるのでしょうか? 層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文参考訳（メタデータ） (2025-11-13T22:51:06Z)
Designing and Contextualising Probes for African Languages [3.161415847253143]
本稿では,アフリカ言語に関する言語知識のためのPLMの探索に関する最初の体系的研究について述べる。我々は6つの類型的多様性を持つアフリカの言語に対して、言語的特徴がどのように分散されているかを分析するために、階層的プローブを訓練する。アフリカ語に適応した PLM は,多言語 PLM よりも対象言語に関する言語情報をエンコードする。
論文参考訳（メタデータ） (2025-05-15T08:35:14Z)
Exploring Italian sentence embeddings properties through multi-tasking [1.4335183427838039]
本研究では,事前学習言語モデルを用いて構築された文表現が,特定の構文情報や意味情報をエンコードする方法について検討する。本研究では,タスクに関連する情報を含む表現や,BLMタスクに埋め込まれた文の圧縮を,2段階のアーキテクチャで個別にモデル化する。文構造 -- フレーズ/チャンクのシーケンスとチャンクプロパティがタスク間で共有できることを期待していましたが、パフォーマンスとエラー分析は、異なるタスクの手がかりが、文の埋め込みにおいて異なる方法でエンコードされていることを示しています。
論文参考訳（メタデータ） (2024-09-10T16:22:18Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文参考訳（メタデータ） (2023-08-01T17:50:17Z)
Assessing Linguistic Generalisation in Language Models: A Dataset for Brazilian Portuguese [4.941630596191806]
ブラジルポルトガル語で開発されたモデルで符号化された言語情報を検査する本質的な評価課題を提案する。これらのタスクは、異なる言語モデルが文法構造やマルチワード表現に関連する情報を一般化する方法を評価するために設計されている。
論文参考訳（メタデータ） (2023-05-23T13:49:14Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Blackbird's language matrices (BLMs): a new benchmark to investigate disentangled generalisation in neural networks [2.5567566997688034]
ブラックバードの言語行列(BLM)は,ラヴェンの進行行列の言語的変種をテストするために開発された,新しい文法的データセットである。このデータセットは44800の文から構成されており、現在のモデルにおける文法的合意規則の言語的熟達の調査を支援するために生成的に構築されている。この言語タスクと、それをインスタンス化するデータは、一般化と抽象化を理解するために、新しい挑戦的なテストベッドを提供することを示す。
論文参考訳（メタデータ） (2022-05-22T16:51:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。