論文の概要: ECoh: Turn-level Coherence Evaluation for Multilingual Dialogues
- arxiv url: http://arxiv.org/abs/2407.11660v1
- Date: Tue, 16 Jul 2024 12:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:11:54.858965
- Title: ECoh: Turn-level Coherence Evaluation for Multilingual Dialogues
- Title(参考訳): ECoh:多言語対話におけるターンレベルのコヒーレンス評価
- Authors: John Mendonça, Isabel Trancoso, Alon Lavie,
- Abstract要約: 本稿では,複数の言語にまたがる応答コヒーレンスを評価するために訓練された評価者の家族であるECohを提案する。
ECohはGenResCoh上の教師モデル(GPT-3.5-Turbo)よりもはるかに小さなアーキテクチャに基づいているにもかかわらず、多言語検出機能を実現している。
- 参考スコア(独自算出の注目度): 8.672875654352689
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite being heralded as the new standard for dialogue evaluation, the closed-source nature of GPT-4 poses challenges for the community. Motivated by the need for lightweight, open source, and multilingual dialogue evaluators, this paper introduces GenResCoh (Generated Responses targeting Coherence). GenResCoh is a novel LLM generated dataset comprising over 130k negative and positive responses and accompanying explanations seeded from XDailyDialog and XPersona covering English, French, German, Italian, and Chinese. Leveraging GenResCoh, we propose ECoh (Evaluation of Coherence), a family of evaluators trained to assess response coherence across multiple languages. Experimental results demonstrate that ECoh achieves multilingual detection capabilities superior to the teacher model (GPT-3.5-Turbo) on GenResCoh, despite being based on a much smaller architecture. Furthermore, the explanations provided by ECoh closely align in terms of quality with those generated by the teacher model.
- Abstract(参考訳): GPT-4のクローズドソース性は,対話評価の新しい標準として認識されているにもかかわらず,コミュニティに課題を提起している。
本稿ではGenResCoh (Generated Responses targeting Coherence)を紹介する。
GenResCoh は、130k以上の負の反応と正の反応と、XDailyDialog と XPersona から得られた説明を含む、英語、フランス語、ドイツ語、イタリア語、中国語を含む新しい LLM 生成データセットである。
GenResCohを活用することで、複数の言語にまたがる応答コヒーレンスを評価するために訓練された評価者のファミリーであるECoh(Evaluation of Coherence)を提案する。
GenResCohの教師モデル(GPT-3.5-Turbo)に比較して,ECohがより小さなアーキテクチャをベースとした多言語検出を実現することを示す実験結果が得られた。
さらに、ECohが提供する説明は、教師モデルによって生成されたものと品質に関して密接に一致している。
関連論文リスト
- Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - Basque and Spanish Counter Narrative Generation: Data Creation and Evaluation [12.528286054814956]
我々は,機械翻訳(MT)と専門的な後編集によって開発されたCN生成のための新しいバスク・スペイン語データセットを提案する。
パラレルコーパス(英語版)であり、元々の英語のCONANに対しても、CNの多言語および多言語自動生成に関する新しい研究を行うことができる。
論文 参考訳(メタデータ) (2024-03-14T08:12:47Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - SurreyAI 2023 Submission for the Quality Estimation Shared Task [17.122657128702276]
本稿では,SurreyAIチームがWMT23のSentence-Level Direct Assessmentタスクに導入したアプローチについて述べる。
提案手法はTransQuestフレームワーク上に構築され、様々なオートエンコーダで事前訓練された言語モデルを探索する。
評価はスピアマンとピアソンの相関係数を用いて, 機械予測品質スコアと人的判断との関係を評価する。
論文 参考訳(メタデータ) (2023-12-01T12:01:04Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。