論文の概要: Simplifications are Absolutists: How Simplified Language Reduces Word Sense Awareness in LLM-Generated Definitions
- arxiv url: http://arxiv.org/abs/2507.11981v1
- Date: Wed, 16 Jul 2025 07:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.276081
- Title: Simplifications are Absolutists: How Simplified Language Reduces Word Sense Awareness in LLM-Generated Definitions
- Title(参考訳): 単純化は絶対主義者である: LLM生成定義における単語感覚の簡易化
- Authors: Lukas Ellinger, Miriam Anschütz, Georg Groh,
- Abstract要約: 目的とする3つのグループ(Normal, Simple, ELI5)の同義語定義品質に,単純化がどのような影響を及ぼすかを検討する。
本結果より, 簡易化は多義性を無視して定義完全性を著しく低下させ, 誤解のリスクを増大させることが示唆された。
これらの知見は、すべての学習者に対して信頼性のある文脈対応の定義を保証するために、教育的NLPにおけるシンプルさと完全さのバランスをとる必要があることを強調している。
- 参考スコア(独自算出の注目度): 2.6217304977339473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can provide accurate word definitions and explanations for any context. However, the scope of the definition changes for different target groups, like children or language learners. This is especially relevant for homonyms, words with multiple meanings, where oversimplification might risk information loss by omitting key senses, potentially misleading users who trust LLM outputs. We investigate how simplification impacts homonym definition quality across three target groups: Normal, Simple, and ELI5. Using two novel evaluation datasets spanning multiple languages, we test DeepSeek v3, Llama 4 Maverick, Qwen3-30B A3B, GPT-4o mini, and Llama 3.1 8B via LLM-as-Judge and human annotations. Our results show that simplification drastically degrades definition completeness by neglecting polysemy, increasing the risk of misunderstanding. Fine-tuning Llama 3.1 8B with Direct Preference Optimization substantially improves homonym response quality across all prompt types. These findings highlight the need to balance simplicity and completeness in educational NLP to ensure reliable, context-aware definitions for all learners.
- Abstract(参考訳): LLM(Large Language Models)は、任意のコンテキストに対して正確な単語定義と説明を提供する。
しかし、定義の範囲は、子供や言語学習者など、異なる対象グループに対して変化する。
これは特に同義語、複数の意味を持つ単語に関係しており、重要な感覚を省略することで情報の損失を過度に単純化し、LLM出力を信頼するユーザを誤解させる可能性がある。
目的とする3つのグループ(Normal, Simple, ELI5)の同義語定義品質に,単純化がどのような影響を及ぼすかを検討する。
複数の言語にまたがる2つの新しい評価データセットを用いて、LLM-as-Judgeおよび人間のアノテーションを介して、DeepSeek v3、Llama 4 Maverick、Qwen3-30B A3B、GPT-4o mini、Llama 3.1 8Bをテストする。
本結果より, 簡易化は多義性を無視して定義完全性を著しく低下させ, 誤解のリスクを増大させることが示唆された。
直接選好最適化による微調整Llama 3.1 8Bは、すべてのプロンプト型間での同音応答品質を大幅に改善する。
これらの知見は、すべての学習者に対して信頼性のある文脈対応の定義を保証するために、教育的NLPにおけるシンプルさと完全さのバランスをとる必要があることを強調している。
関連論文リスト
- Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity [16.065963688326242]
中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。
我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。
あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
論文 参考訳(メタデータ) (2025-07-30T21:50:19Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Explain-then-Process: Using Grammar Prompting to Enhance Grammatical Acceptability Judgments [2.3749120526936465]
大規模言語モデル(LLM)は文法的な規則を説明することができるが、文の受理性を判断する際にはそれらの規則を適用するのに失敗することが多い。
本稿では「文法プロンプト(grammar prompting)」について説明する。
LLMのメタ言語的説明をターゲットモデルにフィードバックすることで、ルールの理解とそれの使用の間のギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T22:42:33Z) - The Accuracy, Robustness, and Readability of LLM-Generated Sustainability-Related Word Definitions [0.6798775532273751]
標準化された定義を持つ共通言語は、効果的な気候に関する議論に不可欠である。
我々は, GPT-4o-mini, Llama3.1 8B, Mistral 7Bが生成した300の公式IPCC用語集を比較検討し, SBERT文の埋め込みによる付着性, 堅牢性, 可読性の解析を行った。
LLMは0.57-0.59 pm 0.15$の平均順守率を記録し、その定義はオリジナルのものよりも読みにくくなった。
論文 参考訳(メタデータ) (2025-02-02T21:05:21Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Dancing Between Success and Failure: Edit-level Simplification
Evaluation using SALSA [21.147261039292026]
編集ベースのヒューマンアノテーションフレームワークであるSALSAを紹介する。
我々は、成功と失敗の全範囲をカバーする、言語的に基礎付けられた20の編集タイプを開発する。
LENS-SALSAは,文品質と単語品質を同時に予測するために訓練された,参照不要な自動単純化指標である。
論文 参考訳(メタデータ) (2023-05-23T18:30:49Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。