論文の概要: Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity
- arxiv url: http://arxiv.org/abs/2507.23121v1
- Date: Wed, 30 Jul 2025 21:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.815778
- Title: Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity
- Title(参考訳): 中国語のテクスト的曖昧さによるLLMの脆弱さの解明
- Authors: Xinwei Wu, Haojie Li, Hongyu Liu, Xinyu Ji, Ruohan Li, Yule Chen, Yigeng Zhang,
- Abstract要約: 中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。
我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。
あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
- 参考スコア(独自算出の注目度): 16.065963688326242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study a critical research problem regarding the trustworthiness of large language models (LLMs): how LLMs behave when encountering ambiguous narrative text, with a particular focus on Chinese textual ambiguity. We created a benchmark dataset by collecting and generating ambiguous sentences with context and their corresponding disambiguated pairs, representing multiple possible interpretations. These annotated examples are systematically categorized into 3 main categories and 9 subcategories. Through experiments, we discovered significant fragility in LLMs when handling ambiguity, revealing behavior that differs substantially from humans. Specifically, LLMs cannot reliably distinguish ambiguous text from unambiguous text, show overconfidence in interpreting ambiguous text as having a single meaning rather than multiple meanings, and exhibit overthinking when attempting to understand the various possible meanings. Our findings highlight a fundamental limitation in current LLMs that has significant implications for their deployment in real-world applications where linguistic ambiguity is common, calling for improved approaches to handle uncertainty in language understanding. The dataset and code are publicly available at this GitHub repository: https://github.com/ictup/LLM-Chinese-Textual-Disambiguation.
- Abstract(参考訳): 本研究では,大型言語モデル (LLM) の信頼性に関する重要な研究課題について考察する。
我々は、文脈とそれに対応する曖昧なペアを用いて曖昧な文の収集と生成を行い、複数の可能な解釈を表現したベンチマークデータセットを作成した。
これらの注釈付き例は、体系的に3つの主要なカテゴリと9つのサブカテゴリに分類される。
実験により, あいまいさに対処する際のLLMの脆弱さが明らかとなり, ヒトとは大きく異なる挙動が明らかとなった。
特に、LLMは曖昧なテキストと曖昧なテキストを確実に区別することができず、曖昧なテキストを複数の意味ではなく単一の意味を持つものとして解釈する際の過信を示し、様々な意味を理解しようとするときに過信を示す。
本研究は,言語理解における不確実性に対処するアプローチの改善を呼びかけ,言語あいまいさが一般的である実世界のアプリケーションに展開する上で重要な意味を持つ,現在のLLMの基本的な制限を強調した。
データセットとコードは、このGitHubリポジトリで公開されている。
関連論文リスト
- Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Who Relies More on World Knowledge and Bias for Syntactic Ambiguity Resolution: Humans or LLMs? [2.3749120526936465]
本研究では,近年の大型言語モデル (LLM) が,6つの類型的多様言語において,相対的節のアタッチメントのあいまいさをナビゲートする方法について検討する。
論文 参考訳(メタデータ) (2025-03-13T19:44:15Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。
本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2024-11-19T10:27:26Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。