論文の概要: Light or Full Verb? A Minimal-Pair Dataset for Probing Phraseological Competence in Language Models
- arxiv url: http://arxiv.org/abs/2606.05087v1
- Date: Wed, 03 Jun 2026 16:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.905418
- Title: Light or Full Verb? A Minimal-Pair Dataset for Probing Phraseological Competence in Language Models
- Title(参考訳): 光か完全動詞か? 言語モデルにおけるフレーズ的能力を求める最小ペアデータセット
- Authors: Francesca Franzon, Nicolas Rosàs Gómez, Leo Wanner,
- Abstract要約: have」や「make」のような動詞は、接尾辞や接尾辞として機能する。
そこで本研究では,同じ文脈に軽動詞と全動詞で同じ動詞を含む,最小限の英語文列の大規模データセットを提案する。
2つの探索実験により、言語モデルは最小限の文脈でもこれらの使用を区別し、オブジェクトタイプ間で分離可能なパターンを示す。
- 参考スコア(独自算出の注目度): 4.74860936402061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frequent English verbs such as 'have' and 'make' can function either as collocates in light-verb constructions or as full lexical predicates, as in 'make a decision' vs. 'make a cake'. Whether language models represent this distinction remains unclear. We introduce a large-scale controlled dataset of minimally varying English sentence series in which the same context contains the same verb in light-verb and full-verb uses. Two probing experiments show that language models differentiate between these uses even in minimal contexts and exhibit separable patterns across object types. We release the dataset, generation code, and materials as a reusable resource. The framework supports extensions to broader contexts, additional verbs, and other languages.
- Abstract(参考訳): 英語の「have」や「make」といった動詞は、軽動詞の構文において、あるいは「make a decision」や「make a cake」のように、完全な語彙述語として機能する。
言語モデルがこの区別を表わすかどうかは不明だ。
英語の文列を最小限に変化させるような大規模に制御されたデータセットを導入し,同じ文脈が軽動詞と全動詞で同じ動詞を含むことを示す。
2つの探索実験により、言語モデルは最小限の文脈でもこれらの使用を区別し、オブジェクトタイプ間で分離可能なパターンを示す。
私たちは再利用可能なリソースとしてデータセット、生成コード、材料をリリースします。
このフレームワークは、より広いコンテキスト、追加の動詞、その他の言語への拡張をサポートする。
関連論文リスト
- IDIOLEX: Unified and Continuous Representations for Idiolectal and Stylistic Variation [88.98544786373212]
既存の文表現は主に、その表現方法ではなく、ある文が何を言っているかを符号化する。
本研究は,意味内容から分離したスタイルと方言をキャプチャする文表現を開発する。
IDIOLEX(IDIOLEX)は,文の証明から文の内容の言語的特徴までを統括するモデルを訓練するためのフレームワークである。
論文 参考訳(メタデータ) (2026-04-06T14:17:24Z) - NLP Datasets for Idiom and Figurative Language Tasks [0.674975004449773]
慣用的で比喩的な言語は、口語と文章の大部分を形成します。
ソーシャルメディアでは、この非公式言語は、大きな言語モデル(LLM)の人やトレーナーにとって、より容易に観測可能になっている。
微調整アプローチは最適であることが証明されているが、より優れた、より大規模なデータセットは、このギャップをさらに狭めるのに役立つ。
論文 参考訳(メタデータ) (2025-11-20T13:28:05Z) - Learning High-Quality and General-Purpose Phrase Representations [9.246374019271938]
フレーズ表現は、データサイエンスと自然言語処理において重要な役割を果たす。
現在の最先端手法では、フレーズ埋め込みのための訓練済み言語モデルを微調整する。
文脈自由な方法で句表現を学習するための改良されたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T22:32:31Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Do Trajectories Encode Verb Meaning? [22.409307683247967]
接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
論文 参考訳(メタデータ) (2022-06-23T19:57:16Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。