Fugu-MT 論文翻訳(概要): Evaluating Chinese Ambiguity Understanding in Large Language Models

論文の概要: Evaluating Chinese Ambiguity Understanding in Large Language Models

arxiv url: http://arxiv.org/abs/2605.15635v1
Date: Fri, 15 May 2026 05:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.18301
Title: Evaluating Chinese Ambiguity Understanding in Large Language Models
Title（参考訳）: 大規模言語モデルにおける中国語の曖昧さ理解の評価
Authors: Junwen Mo, Yuanzhi Lu, Yifang Xue, Ke Xu, Hideki Nakayama,
Abstract要約: CHA-Genは、PA理論に基づく最初の中国の曖昧性データセットである。 5,712文(曖昧な2,414文、曖昧な3,298文)からなり、18の潜在的な曖昧な構造を含んでいる。
参考スコア（独自算出の注目度）: 15.610863020079327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linguistic ambiguity is critical to the robustness of Large Language Models (LLMs), yet existing research focuses mostly on English, with limited attention devoted to Chinese. Existing Chinese ambiguity datasets (e.g., CHAmbi) suffer from poor scalability. Guided by Potential Ambiguity (PA) Theory, we design a semi-automatic pipeline to construct CHA-Gen. It is the first PA Theory-grounded Chinese ambiguity dataset, which comprises 5,712 sentences (2,414 ambiguous, 3,298 unambiguous) across 18 potential ambiguous structures. Evaluating LLMs (e.g. Gemma 3, Qwen 2.5/3 series) via direct querying and machine translation, we find that LLMs struggle with ambiguity detection (improved by CoT prompting). Analysis of Qwen3-32B's CoT rationales reveals three common failure modes: ambiguity blindness, misattribution, and premature resolution. Uncertainty quantification with semantic entropy metric shows higher uncertainty for ambiguous sentences. Moreover, instruction tuning induces overconfidence, whereas Base models better capture semantic diversity. We further observe that models exhibit a bias toward dominant interpretations. Our work provides a scalable approach for Chinese ambiguity corpus and insights into LLMs' ambiguity handling, laying a foundation for enhancing Chinese ambiguity research in LLMs.
Abstract（参考訳）: 言語的曖昧さは、Large Language Models (LLMs) の堅牢性に欠かせないが、既存の研究は主に英語に焦点を絞っており、中国語に限定している。既存の中国の曖昧性データセット(例:CHAmbi)はスケーラビリティの低下に悩まされている。本稿では,CHA-Genを構築するための半自動パイプラインを設計する。 PA理論に基づく最初の中国の曖昧性データセットであり、18の潜在的な曖昧性構造を含む5,712文(曖昧性2,414件、曖昧性3,298件)からなる。直接クエリと機械翻訳によりLLM(例えば Gemma 3, Qwen 2.5/3 シリーズ)を評価すると,LLM はあいまいさ検出(CoT プロンプトによる改善)に苦慮していることがわかった。 Qwen3-32BのCoT合理性の分析では、曖昧さの盲点、誤帰、早期解決の3つの一般的な障害モードが明らかになった。意味エントロピー計量による不確実性定量化は曖昧な文に対して高い不確実性を示す。さらに、命令チューニングは自信過剰を引き起こすが、ベースモデルはセマンティックな多様性をよりよく捉えている。さらに、モデルが支配的な解釈に対するバイアスを示すことを観察する。我々の研究は、中国のあいまいさコーパスにスケーラブルなアプローチを提供し、LLMのあいまいさ処理に関する洞察を与え、LLMにおける中国のあいまいさ研究を強化する基盤を築いた。

関連論文リスト

A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation [53.06004926782424]
VIDA(Visually-Dependent Ambiguity)は2500の慎重にキュレートされたインスタンスのデータセットで、注釈付きソーススパンの解決には視覚的証拠が必要である。また,LLM-as-a-judge分類器を用いて,アノテートされた曖昧な表現がスパンレベルで正しく解決されているかどうかを検証する。
論文参考訳（メタデータ） (2026-05-03T19:55:06Z)
Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity [16.065963688326242]
中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
論文参考訳（メタデータ） (2025-07-30T21:50:19Z)
Constructions Are So Difficult That Even Large Language Models Get Them Right for the Wrong Reasons [43.708431369382176]
語彙重なりが大きいNLIのための小さな課題データセットを導入する。 GPT-4 と Llama 2 は強いバイアスで失敗する。計算言語学の観点から、曲面特徴によって区別できない3種類の形容詞を持つ構成群を同定する。
論文参考訳（メタデータ） (2024-03-26T14:51:12Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文参考訳（メタデータ） (2023-07-03T22:17:16Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文参考訳（メタデータ） (2023-04-27T17:57:58Z)
Is Supervised Syntactic Parsing Beneficial for Language Understanding? An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文参考訳（メタデータ） (2020-08-15T21:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。