Fugu-MT 論文翻訳(概要): Language models should be subject to repeatable, open, domain-contextualized hallucination benchmarking

論文の概要: Language models should be subject to repeatable, open, domain-contextualized hallucination benchmarking

arxiv url: http://arxiv.org/abs/2505.17345v1
Date: Thu, 22 May 2025 23:36:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.73565
Title: Language models should be subject to repeatable, open, domain-contextualized hallucination benchmarking
Title（参考訳）: 言語モデルは、繰り返し、オープン、ドメインコンテキスト化幻覚ベンチマークの対象となるべきである
Authors: Justin D. Norman, Michael U. Rivera, D. Alex Hughes,
Abstract要約: プラルーシブルだが不正確な、モデル生成テキストのトークンは、言語モデルの採用に責任があるため、広く普及し問題となると広く信じられている。言語モデルは、反復可能、オープン、およびドメインコンテキスト化幻覚ベンチマークを用いて評価されるべきである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Plausible, but inaccurate, tokens in model-generated text are widely believed to be pervasive and problematic for the responsible adoption of language models. Despite this concern, there is little scientific work that attempts to measure the prevalence of language model hallucination in a comprehensive way. In this paper, we argue that language models should be evaluated using repeatable, open, and domain-contextualized hallucination benchmarking. We present a taxonomy of hallucinations alongside a case study that demonstrates that when experts are absent from the early stages of data creation, the resulting hallucination metrics lack validity and practical utility.
Abstract（参考訳）: プラルーシブルだが不正確な、モデル生成テキストのトークンは、言語モデルの採用に責任があるため、広く普及し問題となると広く信じられている。このような懸念にもかかわらず、言語モデル幻覚の流行を包括的に測定しようとする科学的研究はほとんどない。本稿では, 言語モデルについて, 繰り返し, オープン, ドメインコンテキスト化による幻覚ベンチマークを用いて評価すべきである,と論じる。データ作成の初期段階に専門家がいない場合、その結果の幻覚指標は妥当性と実用性に欠けることを示すケーススタディと共に幻覚の分類を提示する。

関連論文リスト

Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文参考訳（メタデータ） (2025-09-26T09:23:08Z)
How Large Language Models are Designed to Hallucinate [0.42970700836450487]
幻覚はトランスフォーマーアーキテクチャの構造的な結果であると主張する。本研究の貢献は,(1) 既存の説明が不十分な理由を示す比較説明,(2) 提案されたベンチマークによる実存的構造に関連付けられた幻覚の予測分類,(3) 開示の欠如を抑えることの可能な「真理に制約された」アーキテクチャへの設計方針,の3つである。
論文参考訳（メタデータ） (2025-09-19T16:46:27Z)
Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文参考訳（メタデータ） (2024-07-10T20:37:42Z)
The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models [24.11077502209129]
大規模言語モデル(LLM)は自然言語処理(NLP)のランドスケープを、人間のようなテキストを理解して生成する優れた能力で変えてきた。しかし、これらのモデルは幻覚(幻覚)の傾向があり、実際の現実や入力コンテキストと一致しない。本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。
論文参考訳（メタデータ） (2024-04-08T23:16:22Z)
Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文参考訳（メタデータ） (2024-02-16T08:10:34Z)
Alleviating Hallucinations of Large Language Models through Induced Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文参考訳（メタデータ） (2023-12-25T12:32:49Z)
HALO: An Ontology for Representing and Categorizing Hallucinations in Large Language Models [2.9312156642007294]
Hallucination Ontology (HALO) はOWLで書かれており、大きな言語モデル(LLM)で見られる6種類の幻覚をサポートしている。我々は,複数の独立したWebソースに対して帰納的に収集した幻覚を含むデータセットを公開し,このデータセットをモデル化し,有能な質問に答えるためにHALOをうまく利用できることを示す。
論文参考訳（メタデータ） (2023-12-08T17:57:20Z)
Calibrated Language Models Must Hallucinate [11.891340760198798]
最近の言語モデルでは、驚くほどの頻度で、偽のもっとも可聴なテキストを生成する。この研究は、事前訓練された言語モデルがある種の事実を幻覚させる速度に固有の統計的下限が存在することを示している。訓練データから真偽を判断できない「任意」事実に対して, 幻覚は言語モデルに対して一定の速度で発生しなければならないことを示す。
論文参考訳（メタデータ） (2023-11-24T18:29:50Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。 4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文参考訳（メタデータ） (2023-09-06T01:57:36Z)
Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文参考訳（メタデータ） (2022-10-14T02:35:19Z)
Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文参考訳（メタデータ） (2022-04-26T23:42:22Z)
On Hallucination and Predictive Uncertainty in Conditional Language Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文参考訳（メタデータ） (2021-03-28T00:32:27Z)
The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文参考訳（メタデータ） (2021-03-02T15:57:39Z)
Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文参考訳（メタデータ） (2021-01-24T20:16:12Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。