Fugu-MT 論文翻訳(概要): SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination

論文の概要: SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination

arxiv url: http://arxiv.org/abs/2404.04845v2
Date: Tue, 9 Apr 2024 07:21:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 11:30:54.455551
Title: SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination
Title（参考訳）: SLPL SHROOM at SemEval2024 Task 06: 幻覚検出能力に関する総合的研究
Authors: Pouya Fallah, Soroush Gooran, Mohammad Jafarinasab, Pouya Sadeghi, Reza Farnia, Amirreza Tarabkhah, Zainab Sadat Taghavi, Hossein Sameti,
Abstract要約: 本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。
参考スコア（独自算出の注目度）: 1.4705596514165422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models, particularly generative models, are susceptible to hallucinations, generating outputs that contradict factual knowledge or the source text. This study explores methods for detecting hallucinations in three SemEval-2024 Task 6 tasks: Machine Translation, Definition Modeling, and Paraphrase Generation. We evaluate two methods: semantic similarity between the generated text and factual references, and an ensemble of language models that judge each other's outputs. Our results show that semantic similarity achieves moderate accuracy and correlation scores in trial data, while the ensemble method offers insights into the complexities of hallucination detection but falls short of expectations. This work highlights the challenges of hallucination detection and underscores the need for further research in this critical area.
Abstract（参考訳）: 言語モデル、特に生成モデルは幻覚に影響を受けやすく、事実的知識や原文と矛盾する出力を生成する。本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。以上の結果から,意味的類似性は試行データにおいて適度な精度と相関スコアを達成し,アンサンブル法は幻覚検出の複雑さに関する洞察を提供するが,期待には届かなかった。この研究は幻覚検出の課題を強調し、この重要な領域におけるさらなる研究の必要性を浮き彫りにしている。

関連論文リスト

A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文参考訳（メタデータ） (2025-07-25T07:22:42Z)
Mitigating Object Hallucinations via Sentence-Level Early Intervention [10.642552315531404]
マルチモーダルな大言語モデル(MLLM)は、多モーダルな理解に革命をもたらしたが、幻覚と闘い続けている。人間のアノテーションに依存しないフレームワークであるSENTINELを提案する。文レベルの早期iNtervention through IN- domain preference Learningは、オリジナルのモデルと比較して幻覚を90%以上減らすことができる。
論文参考訳（メタデータ） (2025-07-16T17:55:43Z)
keepitsimple at SemEval-2025 Task 3: LLM-Uncertainty based Approach for Multilingual Hallucination Span Detection [0.0]
ブラックボックス言語モデル生成テキストにおける幻覚の特定は、現実世界の応用に不可欠である。本問題の解法は, 幻覚的スパンを特定するために, 実測的な応答のばらつきを生かしたものである。エントロピーに基づく解析により,このばらつきを計測し,幻覚部分の正確な同定を可能にする。
論文参考訳（メタデータ） (2025-05-23T05:25:14Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T06:34:45Z)
HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection [1.8230982862848586]
本研究の目的は, 幻覚の発生と重篤さに関する, 微妙な, モデルに配慮した理解を英語で提供することである。自然言語の推論と400サンプルの合成データセットを用いたModernBERTモデルの微調整を行った。その結果,モデルの信頼度と幻覚の有無との間には,正の相関が認められた。
論文参考訳（メタデータ） (2025-03-25T13:40:22Z)
KSHSeek: Data-Driven Approaches to Mitigating and Detecting Knowledge-Shortcut Hallucinations in Generative Models [17.435794516702256]
大規模言語モデル(LLM)は自然言語処理(NLP)の開発に大きく進歩している。モデル幻覚は、複雑な原因のため、自然言語生成(NLG)タスクにおいて依然として大きな課題である。この研究は、生成モデルにおける特定の幻覚の問題を緩和し、実世界のアプリケーションにおけるその堅牢性と信頼性を高めるための新しいパラダイムを導入する。
論文参考訳（メタデータ） (2025-03-25T09:18:27Z)
From Hallucinations to Facts: Enhancing Language Models with Curated Knowledge Graphs [20.438680406650967]
本稿では,知識グラフ(KG)を3重化して,経験的データの応答をアンカーすることで,言語モデル幻覚に対処する。言語学的に流動的な応答を生成し、事実の正確さと文脈的関連性に深く根ざすことを目的としている。
論文参考訳（メタデータ） (2024-12-24T20:16:10Z)
H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文参考訳（メタデータ） (2024-11-06T17:55:37Z)
A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。 GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。 1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文参考訳（メタデータ） (2024-10-25T11:41:27Z)
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps [48.58310785625051]
大型言語モデル(LLM)は詳細を幻覚し、根拠のない回答で応答することができる。本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。
論文参考訳（メタデータ） (2024-07-09T17:44:34Z)
Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文参考訳（メタデータ） (2024-04-16T07:14:32Z)
The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models [24.11077502209129]
大規模言語モデル(LLM)は自然言語処理(NLP)のランドスケープを、人間のようなテキストを理解して生成する優れた能力で変えてきた。しかし、これらのモデルは幻覚(幻覚)の傾向があり、実際の現実や入力コンテキストと一致しない。本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。
論文参考訳（メタデータ） (2024-04-08T23:16:22Z)
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文参考訳（メタデータ） (2024-03-03T02:31:11Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Don't Say What You Don't Know: Improving the Consistency of Abstractive Summarization by Constraining Beam Search [54.286450484332505]
本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚を呈する証拠を見出した。本稿では,ビーム探索を制約して幻覚を回避し,変換器をベースとした抽象要約器の整合性を向上させる新しい復号法であるPINOCCHIOを提案する。
論文参考訳（メタデータ） (2022-03-16T07:13:52Z)
Improving Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection [54.38512834521367]
モデル非依存後処理技術としてのコントラスト候補生成と選択について検討する。代替候補要約を生成して判別補正モデルを学習する。このモデルを使用して、最終的な出力サマリーとして最適な候補を選択する。
論文参考訳（メタデータ） (2021-04-19T05:39:24Z)
On Hallucination and Predictive Uncertainty in Conditional Language Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文参考訳（メタデータ） (2021-03-28T00:32:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。