論文の概要: Agent-Driven Corpus Linguistics: A Framework for Autonomous Linguistic Discovery
- arxiv url: http://arxiv.org/abs/2604.07189v1
- Date: Wed, 08 Apr 2026 15:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.603164
- Title: Agent-Driven Corpus Linguistics: A Framework for Autonomous Linguistic Discovery
- Title(参考訳): エージェント駆動コーパス言語:自律言語発見のためのフレームワーク
- Authors: Jia Yu, Weiwei Yu, Pengfei Xiao, Fukun Xing,
- Abstract要約: コーパス言語学は伝統的に、仮説を定式化し、クエリを構築し、結果を解釈するために人間の研究者に依存してきた。
本稿では,大規模言語モデル(LLM)を構造化ツール利用インタフェースを介してコーパスクエリエンジンに接続する手法であるエージェント駆動コーパス言語学を提案する。
制約のないLLM生成とは異なり、すべての発見は検証可能なコーパスの証拠に固定される。
- 参考スコア(独自算出の注目度): 1.954006174763915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Corpus linguistics has traditionally relied on human researchers to formulate hypotheses, construct queries, and interpret results - a process demanding specialized technical skills and considerable time. We propose Agent-Driven Corpus Linguistics, an approach in which a large language model (LLM), connected to a corpus query engine via a structured tool-use interface, takes over the investigative cycle: generating hypotheses, querying the corpus, interpreting results, and refining analysis across multiple rounds. The human researcher sets direction and evaluates final output. Unlike unconstrained LLM generation, every finding is anchored in verifiable corpus evidence. We treat this not as a replacement for the corpus-based/corpus-driven distinction but as a complementary dimension: it concerns who conducts the inquiry, not the epistemological relationship between theory and data. We demonstrate the framework by linking an LLM agent to a CQP-indexed Gutenberg corpus (5 million tokens) via the Model Context Protocol (MCP). Given only "investigate English intensifiers," the agent identified a diachronic relay chain (so+ADJ > very > really), three pathways of semantic change (delexicalization, polarity fixation, metaphorical constraint), and register-sensitive distributions. A controlled baseline experiment shows that corpus grounding contributes quantification and falsifiability that the model cannot produce from training data alone. To test external validity, the agent replicated two published studies on the CLMET corpus (40 million tokens) - Claridge (2025) and De Smet (2013) - with close quantitative agreement. Agent-driven corpus research can thus produce empirically grounded findings at machine speed, lowering the technical barrier for a broader range of researchers.
- Abstract(参考訳): コーパス言語学は伝統的に、仮説を定式化し、クエリを構築し、結果を解釈するために人間の研究者に依存してきた。
本稿では,大規模言語モデル (LLM) を構造化ツールインタフェースを介してコーパスクエリエンジンに接続し,仮説の生成,コーパスのクエリ,結果の解釈,複数ラウンドにわたる解析の精査サイクルを乗っ取る手法を提案する。
人間の研究者は方向を設定し、最終的な出力を評価する。
制約のないLLM生成とは異なり、すべての発見は検証可能なコーパスの証拠に固定される。
我々は、コーパスベース/コーパス駆動の区別の代替ではなく、補完的な次元として扱う。
モデルコンテキストプロトコル (MCP) を介して, LLM エージェントを CQP インデックス付き Gutenberg コーパス (500万トークン) にリンクすることで, このフレームワークを実証する。
インベスティゲート・インテンシファイター(investigate English intensifiers)のみを与えられたエージェントは、ダイアクロニック・リレー・チェーン(so+ADJ > very > really)、セマンティック・チェンジ(立体化、極性固定、比喩的制約)の3つの経路、レジスタ感受性分布を特定した。
制御されたベースライン実験により、コーパスグラウンドリングは、モデルがトレーニングデータだけでは生成できない量化とファルシフィビリティに寄与することが示された。
外部の妥当性をテストするために、エージェントはCLMETコーパス(4000万トークン)、クラリッジ(2025年)、デ・スメット(2013年)の2つの公表された研究を、ほぼ定量的に再現した。
エージェント駆動コーパス研究は、機械の速度で実験的に基礎を成す結果を生み出すことができ、幅広い研究者の技術的な障壁を低くすることができる。
関連論文リスト
- Large Language Models and Forensic Linguistics: Navigating Opportunities and Threats in the Age of Generative AI [0.0]
大規模言語モデル(LLM)は、スケーラブルなコーパス分析と埋め込みベースのオーサシップ属性を実現する強力な分析ツールとして機能する。
近年のスタイリスティックな研究は、LLMが表面のスタイリスティックな特徴を近似できるが、ヒトのライターとの違いが検出可能であることを示唆している。
この論文は、法医学的言語学は科学的に信頼性があり法的に許容されるように、方法論的な再構成を必要とすると結論付けている。
論文 参考訳(メタデータ) (2025-12-07T17:05:31Z) - Extractive Fact Decomposition for Interpretable Natural Language Inference in one Forward Pass [4.990228412613982]
JEDIは、原子の事実分解と解釈可能な推論を共同で行うエンコーダのみのアーキテクチャである。
学習を容易にするため、複数のNLIベンチマークをカバーする合成的合理性の大規模なコーパスを生成する。
本研究は, エンコーダのみのアーキテクチャと合成論理を用いて, NLIの解釈可能性とロバストな一般化を実現することができることを示す。
論文 参考訳(メタデータ) (2025-09-23T11:30:42Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [29.745218855471787]
トークン化は多くの言語モジュールの現在のアーキテクチャにおいて必要なコンポーネントである。
トークン化は、合理的な人間的な言語のパフォーマンスに必要である、と我々は主張する。
本稿では,建築的選択,すなわち構成,思考のための言語の優越性について論じる。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Measuring Grammatical Diversity from Small Corpora: Derivational Entropy Rates, Mean Length of Utterances, and Annotation Invariance [0.0]
文法の導出エントロピーと、それが生成する発話の平均長は、基本的にリンクされていることを示す。
MLUは単なるプロキシではなく、統語的多様性の基本的な尺度であるということを実証します。
導出エントロピー率(英: derivational entropy rate)は、異なる文法的アノテーションフレームワークが木バンクの文法的複雑さを決定する速度を指標とする。
論文 参考訳(メタデータ) (2024-12-08T22:54:57Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Interactive Extractive Search over Biomedical Corpora [41.72755714431404]
本稿では,生命科学研究者が言語的に注釈付けされたテキストのコーパスを検索できるようにするシステムを提案する。
本稿では,下層の言語表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-07T13:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。