論文の概要: Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning
- arxiv url: http://arxiv.org/abs/2509.16422v1
- Date: Fri, 19 Sep 2025 21:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.783255
- Title: Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning
- Title(参考訳): 構築型NLIファインチューニングによるLCMのCxG一般化評価
- Authors: Tom Mackintosh, Harish Tayyar Madabushi, Claire Bonial,
- Abstract要約: 高語彙化から高スキーマ化までの8つの英語構成をカバーする80k文のConTest-NLIベンチマークを導入する。
我々のパイプラインは、テンプレート化とモデル・イン・ザ・ループフィルタの適用により、多様な合成NLIトリプルを生成する。
- 参考スコア(独自算出の注目度): 6.212055472369674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We probe large language models' ability to learn deep form-meaning mappings as defined by construction grammars. We introduce the ConTest-NLI benchmark of 80k sentences covering eight English constructions from highly lexicalized to highly schematic. Our pipeline generates diverse synthetic NLI triples via templating and the application of a model-in-the-loop filter. This provides aspects of human validation to ensure challenge and label reliability. Zero-shot tests on leading LLMs reveal a 24% drop in accuracy between naturalistic (88%) and adversarial data (64%), with schematic patterns proving hardest. Fine-tuning on a subset of ConTest-NLI yields up to 9% improvement, yet our results highlight persistent abstraction gaps in current LLMs and offer a scalable framework for evaluating construction-informed learning.
- Abstract(参考訳): 構築文法で定義した深層形意味マッピングを学習する大規模言語モデルの能力について検討する。
高語彙化から高スキーマ化までの8つの英語構成をカバーする80k文のConTest-NLIベンチマークを導入する。
我々のパイプラインは、テンプレート化とモデル・イン・ザ・ループフィルタの適用により、多様な合成NLIトリプルを生成する。
これは、チャレンジとラベルの信頼性を保証するために、人間のバリデーションの側面を提供する。
LLMをリードするゼロショットテストでは、自然言語データ(88%)と逆データ(64%)の精度が24%低下し、スキーマパターンが最も難しいことが示されている。
ConTest-NLIのサブセットを微調整すると、最大9%の改善が得られるが、その結果は、現在のLLMにおける永続的な抽象的ギャップを強調し、構築インフォームドラーニングを評価するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Benchmarking LLMs for Unit Test Generation from Real-World Functions [34.70460519870186]
ULT(UnLeakedTestbench)は,実世界のPython関数から関数レベルのユニットテストを生成するために設計された,新しいベンチマークである。
3,909個の関数レベルのタスクを慎重に選択することで、ULTはLLMのテスト生成能力をより現実的で挑戦的な評価を提供する。
以上の結果から,ULTはより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-08-01T08:08:26Z) - Pushing the boundary on Natural Language Inference [49.15148871877941]
自然言語推論(NLI)は、ファクトチェック、質問応答、情報検索における自然言語理解の中心的なタスクである。
その重要性にもかかわらず、現在のNLIシステムは、アーティファクトやバイアス、推論、実世界の適用性を制限した学習に大きく依存している。
この作業は、品質や実世界の適用性を犠牲にすることなく、堅牢なNLIシステムを構築するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-25T14:20:57Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Pushing The Limit of LLM Capacity for Text Classification [27.684335455517417]
本稿では,特殊なテキスト分類 LLM を生成するための適応型ブースティングフレームワーク RGPT を提案する。
RGPTは,4つのベンチマークで平均1.36%,8個のSOTA PLMと7個のSOTA LLMより有意に優れていた。
論文 参考訳(メタデータ) (2024-02-12T08:14:03Z) - SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines [15.389579061898429]
本研究では,データ品質アサーションを自動的に合成するSPADEを提案する。
9つの現実世界のLLMパイプラインをテストする場合、SPADEはアサーションの数を14%削減する。
論文 参考訳(メタデータ) (2024-01-05T19:27:58Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。