Fugu-MT 論文翻訳(概要): Zero-shot Factual Consistency Evaluation Across Domains

論文の概要: Zero-shot Factual Consistency Evaluation Across Domains

arxiv url: http://arxiv.org/abs/2408.04114v1
Date: Wed, 7 Aug 2024 22:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 17:10:20.217032
Title: Zero-shot Factual Consistency Evaluation Across Domains
Title（参考訳）: ドメイン間のゼロショットFactual Consistency評価
Authors: Raunak Agarwal,
Abstract要約: 我々は、様々な領域にまたがるソースとターゲットのペアの事実整合性を評価することができるモデルを訓練する。我々は、22のデータセットからなる包括的なベンチマークスイートにおいて、これらを8つのベースラインに対して厳格に評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This work addresses the challenge of factual consistency in text generation systems. We unify the tasks of Natural Language Inference, Summarization Evaluation, Factuality Verification and Factual Consistency Evaluation to train models capable of evaluating the factual consistency of source-target pairs across diverse domains. We rigorously evaluate these against eight baselines on a comprehensive benchmark suite comprising 22 datasets that span various tasks, domains, and document lengths. Results demonstrate that our method achieves state-of-the-art performance on this heterogeneous benchmark while addressing efficiency concerns and attaining cross-domain generalization.
Abstract（参考訳）: 本研究は,テキスト生成システムにおける事実整合性の課題に対処する。本研究では,様々な領域にまたがるソース・ターゲット・ペアの現実的整合性を評価することができる訓練モデルに対して,自然言語推論,要約評価,ファクチュアリティ検証,Factual Consistency Evaluationのタスクを統一する。さまざまなタスク,ドメイン,ドキュメントの長さにまたがる22のデータセットからなる総合ベンチマークスイート上で,これらを8つのベースラインに対して厳格に評価する。その結果,本手法は効率上の問題に対処し,ドメイン間の一般化を実現しつつ,異種ベンチマークの最先端性能を実現することができた。

関連論文リスト

Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-16T15:42:55Z)
Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。 QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。 1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文参考訳（メタデータ） (2024-07-28T11:49:06Z)
Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文参考訳（メタデータ） (2024-04-10T16:44:11Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
Evaluating and Improving Factuality in Multimodal Abstractive Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文参考訳（メタデータ） (2022-11-04T16:50:40Z)
Questioning the Validity of Summarization Datasets and Improving Their Factual Consistency [14.974996886744083]
SummFCは,事実整合性を改善したフィルタされた要約データセットである。我々は,データセットが要約システムの開発と評価のための有効なベンチマークとなるべきだと論じている。
論文参考訳（メタデータ） (2022-10-31T15:04:20Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
Investigating Crowdsourcing Protocols for Evaluating the Factual Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文参考訳（メタデータ） (2021-09-19T19:05:00Z)
Factual Consistency Evaluation for Text Summarization via Counterfactual Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文参考訳（メタデータ） (2021-08-30T11:48:41Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)
Cross-Domain Facial Expression Recognition: A Unified Evaluation Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-08-03T15:00:31Z)
Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文参考訳（メタデータ） (2020-06-07T09:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。