Fugu-MT 論文翻訳(概要): An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation

論文の概要: An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation

arxiv url: http://arxiv.org/abs/2504.11934v1
Date: Wed, 16 Apr 2025 10:14:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 20:38:09.094698
Title: An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation
Title（参考訳）: 拡張性ジェンダーニュートラル翻訳評価のためのLCM-as-a-judgeアプローチ
Authors: Andrea Piergentili, Beatrice Savoldi, Matteo Negri, Luisa Bentivogli,
Abstract要約: ジェンダーニュートラル翻訳(GNT)は、ソーステキストがそれらの参照者の性別に関する明示的な手がかりを欠いている場合に、人間の参照者の性別を表現することを避けることを目的としている。大規模言語モデル(LLM)をGNTの評価器として用いることを検討する。
参考スコア（独自算出の注目度）: 14.799630514233238
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Gender-neutral translation (GNT) aims to avoid expressing the gender of human referents when the source text lacks explicit cues about the gender of those referents. Evaluating GNT automatically is particularly challenging, with current solutions being limited to monolingual classifiers. Such solutions are not ideal because they do not factor in the source sentence and require dedicated data and fine-tuning to scale to new languages. In this work, we address such limitations by investigating the use of large language models (LLMs) as evaluators of GNT. Specifically, we explore two prompting approaches: one in which LLMs generate sentence-level assessments only, and another, akin to a chain-of-thought approach, where they first produce detailed phrase-level annotations before a sentence-level judgment. Through extensive experiments on multiple languages with five models, both open and proprietary, we show that LLMs can serve as evaluators of GNT. Moreover, we find that prompting for phrase-level annotations before sentence-level assessments consistently improves the accuracy of all models, providing a better and more scalable alternative to current solutions.
Abstract（参考訳）: ジェンダーニュートラル翻訳(GNT)は、ソーステキストがそれらの参照者の性別に関する明示的な手がかりを欠いている場合に、人間の参照者の性別を表現することを避けることを目的としている。 GNTを自動評価することは特に困難であり、現在の解はモノリンガル分類器に限られている。このようなソリューションは、ソース文を分解せず、新しい言語にスケールするために専用のデータと微調整を必要とするため、理想的ではない。本研究では,大規模言語モデル (LLM) をGNTの評価器として用いることにより,そのような制約に対処する。具体的には,LLMが文レベルの評価のみを生成する手法と,文章レベルの判断の前に詳細なフレーズレベルのアノテーションを最初に生成する手法の2つについて検討する。オープンかつプロプライエタリな5つのモデルを持つ複数の言語に関する広範な実験を通して、LLMがGNTの評価役として機能することを示す。さらに,文レベルの評価の前にフレーズレベルのアノテーションを推奨することで,すべてのモデルの精度が一貫して向上し,現行のソリューションに対するより良い,よりスケーラブルな代替手段が提供されることがわかった。

関連論文リスト

Natural Language-based Assessment of L2 Oral Proficiency using LLMs [5.931245606235828]
自然言語に基づくアセスメント(NLA)は、can-doディスクリプタの形式で表現された命令を使用する第二言語アセスメントのアプローチである。本研究では,オープンソース LLM である Qwen 2.5 72B を用いて,公開されている S&I コーパスからの応答を評価する。提案手法は,タスクに精巧に調整されたLLMを上回りませんが,この目的に特化して訓練されたBERTベースモデルよりも優れています。
論文参考訳（メタデータ） (2025-07-14T12:13:50Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文参考訳（メタデータ） (2025-05-18T07:24:13Z)
Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-05-15T13:10:47Z)
When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文参考訳（メタデータ） (2025-01-08T12:54:05Z)
CATER: Leveraging LLM to Pioneer a Multidimensional, Reference-Independent Paradigm in Translation Quality Evaluation [0.0]
Comprehensive AI-assisted Translation Edit Ratio (CATER)は、機械翻訳(MT)の品質を評価するための新しいフレームワークである。大きな言語モデル(LLM)は、慎重に設計されたプロンプトベースのプロトコルによって使用される。
論文参考訳（メタデータ） (2024-12-15T17:45:34Z)
Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文参考訳（メタデータ） (2024-10-17T08:10:24Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文参考訳（メタデータ） (2023-09-14T06:41:58Z)
Language models are not naysayers: An analysis of language models on negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。 LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文参考訳（メタデータ） (2023-06-14T01:16:37Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文参考訳（メタデータ） (2023-05-23T19:38:28Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。