論文の概要: Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis
- arxiv url: http://arxiv.org/abs/2512.00214v1
- Date: Fri, 28 Nov 2025 21:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.114818
- Title: Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis
- Title(参考訳): 多言語文法解析のためのコーパスグラウンドエージェントLSMを目指して
- Authors: Matej Klemen, Tjaša Arčon, Luka Terčon, Marko Robnik-Šikonja, Kaja Dobrovoljc,
- Abstract要約: 本稿では, エージェント型大規模言語モデル (LLM) を用いて, 注釈付きコーパスの体系的解析を効率化する方法について検討する。
本稿では,自然言語タスク解釈などの概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。
We test the system on multilingual grammatical tasks by the World Atlas of Language Structures (WALS) (英語)
- 参考スコア(独自算出の注目度): 0.5545791216381869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical grammar research has become increasingly data-driven, but the systematic analysis of annotated corpora still requires substantial methodological and technical effort. We explore how agentic large language models (LLMs) can streamline this process by reasoning over annotated corpora and producing interpretable, data-grounded answers to linguistic questions. We introduce an agentic framework for corpus-grounded grammatical analysis that integrates concepts such as natural-language task interpretation, code generation, and data-driven reasoning. As a proof of concept, we apply it to Universal Dependencies (UD) corpora, testing it on multilingual grammatical tasks inspired by the World Atlas of Language Structures (WALS). The evaluation spans 13 word-order features and over 170 languages, assessing system performance across three complementary dimensions - dominant-order accuracy, order-coverage completeness, and distributional fidelity - which reflect how well the system generalizes, identifies, and quantifies word-order variations. The results demonstrate the feasibility of combining LLM reasoning with structured linguistic data, offering a first step toward interpretable, scalable automation of corpus-based grammatical inquiry.
- Abstract(参考訳): 経験文法の研究はますますデータ駆動化が進んでいるが、注釈付きコーパスの体系的な分析には、依然として相当な方法論と技術的努力が必要である。
我々は, エージェント型大規模言語モデル (LLM) が, 注釈付きコーパスを解析し, 言語問題に対する解釈可能なデータ基底解を生成することによって, このプロセスを合理化する方法について検討する。
本稿では,自然言語のタスク解釈やコード生成,データ駆動推論といった概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。
概念実証として,世界言語構造学(WALS)に触発された多言語文法的タスクに対して,Universal Dependencies (UD)コーパスに適用する。
この評価は、13の単語順序特徴と170以上の言語にまたがり、三つの相補的な次元 – 支配的順序精度、順序被覆完全性、分布的忠実性 – でシステムのパフォーマンスを評価し、システムがいかにして単語順序の変化を一般化し、特定し、定量化するかを反映している。
この結果は,LLM推論と構造化言語データを組み合わせることの実現可能性を示し,コーパスに基づく文法探索の解釈可能でスケーラブルな自動化に向けた第一歩となる。
関連論文リスト
- LinguaLens: Towards Interpreting Linguistic Mechanisms of Large Language Models via Sparse Auto-Encoder [47.81850176849213]
スパースオートエンコーダ(SAE)に基づく大規模言語モデルの言語メカニズム解析のためのフレームワークを提案する。
我々は4次元(形態学、構文学、意味論、プラグマティクス)にわたる中国語と英語の言語的特徴を幅広く抽出する。
本研究は, LLMにおける言語知識の内在的表現, 層間および言語間分布のパターンを明らかにし, モデル出力の制御の可能性を示した。
論文 参考訳(メタデータ) (2025-02-27T18:16:47Z) - Data2Concept2Text: An Explainable Multilingual Framework for Data Analysis Narration [42.95840730800478]
本稿では,データの集合を解釈し,基礎となる特徴を抽象化し,それを自然言語で記述する,完全な説明可能なシステムを提案する。
このシステムは、2つの重要な段階に依存している: (i)データから出現する特性を識別し、それらを抽象概念に変換する、(ii)これらの概念を自然言語に変換する。
論文 参考訳(メタデータ) (2025-02-13T11:49:48Z) - Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions [3.0906699069248806]
Construction Grammar (CxG) は、一般化をテストするための精神言語学的基盤となるフレームワークである。
我々のデータセットは英語のフレーズ構造で構成されており、話者は共通の場所のインスタンス化を抽象化できることが知られている。
その結果、GPT-o1を含む最先端モデルでは、第2タスクで40%以上の性能低下が見られた。
論文 参考訳(メタデータ) (2025-01-08T18:15:10Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。