Fugu-MT 論文翻訳(概要): A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation

論文の概要: A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation

arxiv url: http://arxiv.org/abs/2406.15227v3
Date: Mon, 04 Nov 2024 09:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.986847
Title: A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation
Title（参考訳）: 自動カウンタ・ナラレーティブ生成評価のためのLLMに基づくランク付け法
Authors: Irune Zubiaga, Aitor Soroa, Rodrigo Agerri,
Abstract要約: 本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
参考スコア（独自算出の注目度）: 14.064465097974836
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes a novel approach to evaluate Counter Narrative (CN) generation using a Large Language Model (LLM) as an evaluator. We show that traditional automatic metrics correlate poorly with human judgements and fail to capture the nuanced relationship between generated CNs and human perception. To alleviate this, we introduce a model ranking pipeline based on pairwise comparisons of generated CNs from different models, organized in a tournament-style format. The proposed evaluation method achieves a high correlation with human preference, with a $\rho$ score of 0.88. As an additional contribution, we leverage LLMs as zero-shot CN generators and provide a comparative analysis of chat, instruct, and base models, exploring their respective strengths and limitations. Through meticulous evaluation, including fine-tuning experiments, we elucidate the differences in performance and responsiveness to domain-specific data. We conclude that chat-aligned models in zero-shot are the best option for carrying out the task, provided they do not refuse to generate an answer due to security concerns.
Abstract（参考訳）: 本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。これを軽減するために,トーナメント形式で編成された異なるモデルから生成されたCNのペアワイズ比較に基づくモデルランキングパイプラインを導入する。提案手法は人選好と高い相関性を示し,そのスコアは0.88ドルである。さらなる貢献として、ゼロショットCNジェネレータとしてLLMを活用し、チャット、インストラクション、ベースモデルの比較分析を行い、それぞれの強みと限界を探索する。微調整実験を含む精巧な評価により、ドメイン固有のデータに対する性能と応答性の違いを解明する。ゼロショットでのチャットアライメントモデルは,セキュリティ上の懸念から回答を得られないのであれば,タスクを実行する上で最善の選択肢である,と結論付けている。

関連論文リスト

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
LLMs Are Not Scorers: Rethinking MT Evaluation with Generation-Based Methods [0.0]
本稿では,デコーダのみの言語モデルを利用して高品質な参照を生成する世代ベース評価パラダイムを提案する。実験の結果,本手法はMTMEのLLM内直接スコアリング基準値と外部非LLM基準値の両方より優れていた。
論文参考訳（メタデータ） (2025-05-22T02:14:38Z)
SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Sequencing Matters: A Generate-Retrieve-Generate Model for Building Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文参考訳（メタデータ） (2023-11-16T02:37:58Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)
Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文参考訳（メタデータ） (2023-03-02T06:33:48Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)
Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文参考訳（メタデータ） (2020-06-05T03:31:49Z)
Learning to Compare for Better Training and Evaluation of Open Domain Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文参考訳（メタデータ） (2020-02-12T15:52:21Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。