論文の概要: FFE-Hallu:Hallucinations in Fixed Figurative Expressions:Benchmark of Idioms and Proverbs in the Persian Language
- arxiv url: http://arxiv.org/abs/2601.20105v1
- Date: Tue, 27 Jan 2026 22:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.688481
- Title: FFE-Hallu:Hallucinations in Fixed Figurative Expressions:Benchmark of Idioms and Proverbs in the Persian Language
- Title(参考訳): FFE-Hallu:Halucinations in Fixed Figurative Expressions:Benchmark of Idioms and Proverbs in the Persian Language
- Authors: Faezeh Hosseini, Mohammadali Yousefzadeh, Yadollah Yaghoobzadeh,
- Abstract要約: フィギュラティブ言語、特にイディオムや証明のような固定されたフィギュラティブ表現(FFE)は、大きな言語モデルに対して永続的な課題を提起する。
FFEHalluは、大規模な言語モデルにおいて、幻覚を評価するための最初の総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 6.087330499426006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Figurative language, particularly fixed figurative expressions (FFEs) such as idioms and proverbs, poses persistent challenges for large language models (LLMs). Unlike literal phrases, FFEs are culturally grounded, largely non-compositional, and conventionally fixed, making them especially vulnerable to figurative hallucination. We define figurative hallucination as the generation or endorsement of expressions that sound idiomatic and plausible but do not exist as authentic figurative expressions in the target language. We introduce FFEHallu, the first comprehensive benchmark for evaluating figurative hallucination in LLMs, with a focus on Persian, a linguistically rich yet underrepresented language. FFEHallu consists of 600 carefully curated instances spanning three complementary tasks: (i) FFE generation from meaning, (ii) detection of fabricated FFEs across four controlled construction categories, and (iii) FFE to FFE translation from English to Persian. Evaluating six state of the art multilingual LLMs, we find systematic weaknesses in figurative competence and cultural grounding. While models such as GPT4.1 demonstrate relatively strong performance in rejecting fabricated FFEs and retrieving authentic ones, most models struggle to reliably distinguish real expressions from high quality fabrications and frequently hallucinate during cross lingual translation. These findings reveal substantial gaps in current LLMs handling of figurative language and underscore the need for targeted benchmarks to assess and mitigate figurative hallucination.
- Abstract(参考訳): フィギュラティブ言語、特にイディオムや証明のような固定されたフィギュラティブ表現(FFE)は、大きな言語モデル(LLM)に対して永続的な課題を提起する。
文字通りの言い回しとは異なり、FFEは文化的基盤があり、主に非構成的であり、伝統的に固定されているため、特に幻覚に対して脆弱である。
本研究は, 具体的幻覚を, 音素的かつ可塑性に聞こえる表現の生成あるいは支持として定義するが, 対象言語に真の表現として存在しない。
FFEHalluは,言語的に豊かな言語であるペルシャ語に焦点をあて,LLMにおける幻覚を評価するための最初の総合的なベンチマークである。
FFEHalluは、3つの補完的なタスクにまたがる600の慎重にキュレートされたインスタンスで構成されている。
一 意味からFFEを生成すること。
(II)4つの制御された建築カテゴリーにおける製造FFEの検出および検出
(三)FFEからFFEへの翻訳英語からペルシア語への翻訳。
最先端の多言語LLMを6つ評価し, 具体的能力と文化基盤の体系的弱点を見出した。
GPT4.1のようなモデルは、偽造されたFFEを拒絶し、真正なFFEを回収する上で比較的強力な性能を示すが、ほとんどのモデルは、高品質な合成と、言語間の翻訳においてしばしば幻覚を確実に区別するのに苦労している。
これらの結果から,現在LLM における図形言語処理のギャップが顕著であり,図形幻覚の評価・緩和のための目標ベンチマークの必要性が浮き彫りになっている。
関連論文リスト
- When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding [75.57997630182136]
シーンテキスト領域に着目した大規模マルチモーダルモデルにおけるトランスフォーマー層は,意味幻覚を生成する傾向が低い。
本研究では,ZoomText と Grounded Layer Correction の2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
本手法は,意味幻覚を効果的に緩和するだけでなく,シーンテキストのスポッティングや理解のための公開ベンチマークの性能も向上する。
論文 参考訳(メタデータ) (2025-06-05T19:53:19Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - FLUTE: Figurative Language Understanding and Textual Explanations [37.83909874945428]
FLUTEは8000の図式NLIインスタンスのデータセットで、説明とともにリリースします。
我々は、GPT-3を人間の専門家と組み合わせることで、データセットの作成をスケールアップできることを示す。
論文 参考訳(メタデータ) (2022-05-24T23:25:02Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。