論文の概要: MoFE: Mixture of Factual Experts for Controlling Hallucinations in
Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2110.07166v1
- Date: Thu, 14 Oct 2021 06:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 04:51:04.672393
- Title: MoFE: Mixture of Factual Experts for Controlling Hallucinations in
Abstractive Summarization
- Title(参考訳): MoFE:抽象要約における幻覚制御の専門家の混在
- Authors: Prafulla Kumar Choubey, Jesse Vig, Wenhao Liu, Nazneen Fatema Rajani
- Abstract要約: MoFE(Mixture of Factual Experts)モデルは、特定のタイプのエラーをターゲットとする複数の要約専門家を組み合わせたモデルである。
BARTモデルの実験では、MoFEはエンティティの重複と依存性の弧の包含の両方に応じてパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 18.464765966462135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural abstractive summarization models are susceptible to generating
factually inconsistent content, a phenomenon known as hallucination. This
limits the usability and adoption of these systems in real-world applications.
To reduce the presence of hallucination, we propose the Mixture of Factual
Experts (MoFE) model, which combines multiple summarization experts that each
target a specific type of error. We train our experts using reinforcement
learning (RL) to minimize the error defined by two factual consistency metrics:
entity overlap and dependency arc entailment. We construct MoFE by combining
the experts using two ensembling strategies (weights and logits) and evaluate
them on two summarization datasets (XSUM and CNN/DM). Our experiments on BART
models show that the MoFE improves performance according to both entity overlap
and dependency arc entailment, without a significant performance drop on
standard ROUGE metrics. The performance improvement also transfers to unseen
factual consistency metrics, such as question answer-based factuality
evaluation metric and BERTScore precision with respect to the source document.
- Abstract(参考訳): 神経抽象的要約モデルは、幻覚として知られる現象である事実的に一貫性のないコンテンツを生成する傾向がある。
これにより、現実世界のアプリケーションにおけるこれらのシステムのユーザビリティと採用が制限される。
幻覚の出現を減らすために,複数の要約専門家を組み合わせ,それぞれが特定の種類のエラーをターゲットとするMixture of Factual Experts (MoFE)モデルを提案する。
我々は、強化学習(RL)を使用して専門家を訓練し、2つの事実整合性メトリクス、すなわちエンティティの重複と依存性のアークの誤差を最小限にする。
筆者らは,二つのアンサンブル戦略(ウェイトとロジット)を併用してMoFEを構築し,それらを2つの要約データセット(XSUMとCNN/DM)で評価する。
BARTモデルを用いた実験により,MoFEは標準的なROUGE測定値に顕著な性能低下を伴わずに,エンティティオーバーラップと依存性のアーク包含の両方に応じて性能を向上することが示された。
パフォーマンス改善はまた、ソースドキュメントに関する質問応答に基づく事実性評価メトリックやbertscore精度など、未認識の事実整合性メトリクスに転送される。
関連論文リスト
- Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [29.130355774088205]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。
多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
論文 参考訳(メタデータ) (2024-02-05T17:37:46Z) - Uncertain Facial Expression Recognition via Multi-task Assisted
Correction [43.02119884581332]
MTACと呼ばれる不確実な表情認識に対処するためのマルチタスク支援補正法を提案する。
具体的には、信頼度推定ブロックと重み付け正則化モジュールを用いて、固体試料をハイライトし、バッチ毎に不確かさサンプルを抑圧する。
RAF-DB、AffectNet、AffWild2データセットの実験は、MTACが合成および実際の不確実性に直面した際のベースラインよりも大幅に改善されていることを示した。
論文 参考訳(メタデータ) (2022-12-14T10:28:08Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Holistic Deep Learning [3.718942345103135]
本稿では、入力摂動、過度なパラメータ化、性能不安定といった脆弱性の課題に対処する、新しい総合的なディープラーニングフレームワークを提案する。
提案したフレームワークは、標準的なディープラーニングモデルよりも正確性、堅牢性、疎性、安定性を全面的に改善する。
論文 参考訳(メタデータ) (2021-10-29T14:46:32Z) - Understanding Factuality in Abstractive Summarization with FRANK: A
Benchmark for Factuality Metrics [17.677637487977208]
現代の要約モデルは、高度に流れるが、実際には信頼できない出力を生成する。
一般的なベンチマークがないため、自動生成したサマリーの事実性を測定するためのメトリクスを比較することはできない。
我々は,事実誤りの類型を考案し,それを用いて,最先端の要約システムから生成された要約の人間のアノテーションを収集する。
論文 参考訳(メタデータ) (2021-04-27T17:28:07Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。