Fugu-MT 論文翻訳(概要): Long-Form Information Alignment Evaluation Beyond Atomic Facts

論文の概要: Long-Form Information Alignment Evaluation Beyond Atomic Facts

arxiv url: http://arxiv.org/abs/2505.15792v1
Date: Wed, 21 May 2025 17:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.811186
Title: Long-Form Information Alignment Evaluation Beyond Atomic Facts
Title（参考訳）: 原子間力を超えた長期情報アライメント評価
Authors: Danna Zheng, Mirella Lapata, Jeff Z. Pan,
Abstract要約: 明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
参考スコア（独自算出の注目度）: 60.25969380388974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Information alignment evaluators are vital for various NLG evaluation tasks and trustworthy LLM deployment, reducing hallucinations and enhancing user trust. Current fine-grained methods, like FactScore, verify facts individually but neglect inter-fact dependencies, enabling subtle vulnerabilities. In this work, we introduce MontageLie, a challenging benchmark that constructs deceptive narratives by "montaging" truthful statements without introducing explicit hallucinations. We demonstrate that both coarse-grained LLM-based evaluators and current fine-grained frameworks are susceptible to this attack, with AUC-ROC scores falling below 65%. To enable more robust fine-grained evaluation, we propose DoveScore, a novel framework that jointly verifies factual accuracy and event-order consistency. By modeling inter-fact relationships, DoveScore outperforms existing fine-grained methods by over 8%, providing a more robust solution for long-form text alignment evaluation. Our code and datasets are available at https://github.com/dannalily/DoveScore.
Abstract（参考訳）: 情報アライメント評価器は,様々なNLG評価タスクや信頼性の高いLCM展開,幻覚の低減,ユーザ信頼の向上に不可欠である。 FactScoreのような現在のきめ細かいメソッドは、事実を個別に検証するが、ファクト間の依存関係を無視し、微妙な脆弱性を可能にする。本研究では, 暗黙の幻覚を伴わずに, 真理のステートメントを"モンテージ"することで, 虚偽の物語を構築する, 挑戦的なベンチマークであるMontageLieを紹介する。 AUC-ROCスコアは65%以下で, 粗粒度LCMベースの評価器と現在の細粒度フレームワークの両方が攻撃を受けやすいことを実証した。より堅牢なきめ細かい評価を実現するために,事実の精度とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。ファクト間の関係をモデル化することによって、DoveScoreは既存のきめ細かいメソッドを8%以上上回り、長文アライメント評価のためのより堅牢なソリューションを提供する。私たちのコードとデータセットはhttps://github.com/dannalily/DoveScore.comで公開されています。

関連論文リスト

Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文参考訳（メタデータ） (2025-07-15T17:23:56Z)
Agent-as-Judge for Factual Summarization of Long Narratives [20.3296043006896]
大規模言語モデル(LLM)は、ROUGEやBERTScoreといった従来のメトリクスに基づいた要約タスクにおいて、ほぼ人間に近い性能を示す。 LLM-as-a-Judgeのような最近の進歩は、語彙的類似性に基づくメトリクスの限界に対処するが、実際には矛盾を示す。本稿では,要約を評価・精査するための新しい「Agent-as-a-Judge」フレームワークであるNarrativeFactScoreを紹介する。
論文参考訳（メタデータ） (2025-01-17T07:23:06Z)
SAGEval: The frontiers of Satisfactory Agent based NLG Evaluation for reference-free open-ended text [0.848663031844483]
本稿では,参照/グラウンドラベルが存在しない,あるいは十分に利用できない,自然言語生成のためのロバストな評価手法を開発する必要性を明らかにする。本研究では,LCM評価器のスコアを補正し,複雑なNLG評価シナリオにおいてもラベル付きデータの必要性を低減できることを示す。
論文参考訳（メタデータ） (2024-11-25T04:07:16Z)
FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-02T16:03:13Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)
Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。 FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文参考訳（メタデータ） (2023-07-13T17:14:38Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Evaluating the Factual Consistency of Large Language Models Through News Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文参考訳（メタデータ） (2022-11-15T18:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。