Fugu-MT 論文翻訳(概要): Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation

論文の概要: Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation

arxiv url: http://arxiv.org/abs/2502.08514v1
Date: Wed, 12 Feb 2025 15:46:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:01.049287
Title: Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation
Title（参考訳）: 信条・不信条・曖昧性
Authors: Mahnaz Koupaee, Jake W. Vincent, Saab Mansour, Igor Shalyminov, Han He, Hwanjun Song, Raphael Shu, Jianfeng He, Yi Nian, Amy Wing-mei Wong, Kyu J. Han, Hang Su,
Abstract要約: 本稿では,複数のエージェントに初期スタンスを割り当てた忠実度評価を要約する手法を提案する。我々は、このような特殊な事例を特定するために、新しい次元、曖昧さ、詳細な分類を導入します。実験により、我々のアプローチはあいまいさの識別に役立ち、曖昧でない要約でもより強力なパフォーマンスが得られることが示された。
参考スコア（独自算出の注目度）: 29.44609627447293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Faithfulness evaluators based on large language models (LLMs) are often fooled by the fluency of the text and struggle with identifying errors in the summaries. We propose an approach to summary faithfulness evaluation in which multiple LLM-based agents are assigned initial stances (regardless of what their belief might be) and forced to come up with a reason to justify the imposed belief, thus engaging in a multi-round debate to reach an agreement. The uniformly distributed initial assignments result in a greater diversity of stances leading to more meaningful debates and ultimately more errors identified. Furthermore, by analyzing the recent faithfulness evaluation datasets, we observe that naturally, it is not always the case for a summary to be either faithful to the source document or not. We therefore introduce a new dimension, ambiguity, and a detailed taxonomy to identify such special cases. Experiments demonstrate our approach can help identify ambiguities, and have even a stronger performance on non-ambiguous summaries.
Abstract（参考訳）: 大型言語モデル(LLM)に基づく忠実度評価器は、テキストの流布や要約における誤りの特定に悩まされることが多い。本稿では,複数のLCMをベースとしたエージェントに初期スタンス(信念によらず)を課し,強制された信念を正当化する理由を見出さざるを得ない,複数回にわたる議論を行って合意に達するという,忠実度評価を要約するアプローチを提案する。均一に分散された初期割り当ては、より有意義な議論と究極的にはより多くの誤りに繋がる姿勢の多様性をもたらす。さらに,近年の忠実度評価データセットを解析した結果,要約が資料に忠実であるか否かが必ずしも問題ではないことが明らかとなった。そこで我々は,このような特殊な事例を特定するために,新たな次元,曖昧さ,詳細な分類法を導入する。実験により、我々のアプローチはあいまいさの識別に役立ち、曖昧でない要約でもより強力なパフォーマンスが得られることが示された。

関連論文リスト

Perspectives in Play: A Multi-Perspective Approach for More Inclusive NLP Systems [3.011820285006942]
本研究では,視点認識モデルの開発を促進するために,ソフトラベルを用いた新しい多視点アプローチを提案する。我々は、ヘイトスピーチ、皮肉、虐待言語、スタンス検出など、多様な主観的テキスト分類タスクの分析を行う。結果は、Jensen-Shannon Divergence (JSD) が測定したように、マルチパースペクティブアプローチが人間のラベル分布をよりよく近似していることを示している。本手法は,本文の主観性に起因して,皮肉や姿勢検出などの課題に対する信頼度を低下させる。
論文参考訳（メタデータ） (2025-06-25T07:53:36Z)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
On Positional Bias of Faithfulness for Long-form Summarization [83.63283027830657]
LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
論文参考訳（メタデータ） (2024-10-31T03:50:15Z)
STORYSUMM: Evaluating Faithfulness in Story Summarization [31.94902013480574]
本稿では,局所的な忠実度ラベルと誤り説明を含む短編を収録した新しいデータセットであるSTORYSUMMを紹介する。このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
論文参考訳（メタデータ） (2024-07-09T02:06:30Z)
FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。 LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文参考訳（メタデータ） (2024-04-01T17:33:38Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Fine-Grained Natural Language Inference Based Faithfulness Evaluation for Diverse Summarisation Tasks [14.319567507959759]
既成の自然言語推論(NLI)モデルを用いた要約忠実度の評価手法について検討した。 InFusEという新しい手法を提案する。これは、変数の前提サイズを使い、要約文を短い仮説に単純化する。
論文参考訳（メタデータ） (2024-02-27T15:57:11Z)
Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文参考訳（メタデータ） (2023-08-17T18:11:33Z)
Interpretable Automatic Fine-grained Inconsistency Detection in Text Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文参考訳（メタデータ） (2023-05-23T22:11:47Z)
Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文参考訳（メタデータ） (2022-10-21T07:22:43Z)
Beyond Model Interpretability: On the Faithfulness and Adversarial Robustness of Contrastive Textual Explanations [2.543865489517869]
本研究は、説明の忠実さに触発された新たな評価手法の基盤を築き、テキストの反事実を動機づけるものである。感情分析データを用いた実験では, 両モデルとも, 対物関係の関連性は明らかでないことがわかった。
論文参考訳（メタデータ） (2022-10-17T09:50:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。