論文の概要: An Investigation of Warning Erroneous Chat Translations in Cross-lingual Communication
- arxiv url: http://arxiv.org/abs/2408.15543v1
- Date: Wed, 28 Aug 2024 05:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:12:56.252176
- Title: An Investigation of Warning Erroneous Chat Translations in Cross-lingual Communication
- Title(参考訳): 言語間通信における誤訳の警告に関する検討
- Authors: Yunmeng Li, Jun Suzuki, Makoto Morishita, Kaori Abe, Kentaro Inui,
- Abstract要約: 本研究は, チャット翻訳のための多次元品質指標(MQM-Chat)を提案する。
各モデルが何らかの根本的な誤りを発生させるのに対し,各モデルには欠落,曖昧なソース内容の過度な修正,バズワード問題といった欠点がある。
本研究は,チャット翻訳評価におけるMQM-Chatの有効性を実証し,今後の研究における文体化コンテンツの重要性と対話の整合性を強調した。
- 参考スコア(独自算出の注目度): 35.69695355173317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The complexities of chats pose significant challenges for machine translation models. Recognizing the need for a precise evaluation metric to address the issues of chat translation, this study introduces Multidimensional Quality Metrics for Chat Translation (MQM-Chat). Through the experiments of five models using MQM-Chat, we observed that all models generated certain fundamental errors, while each of them has different shortcomings, such as omission, overly correcting ambiguous source content, and buzzword issues, resulting in the loss of stylized information. Our findings underscore the effectiveness of MQM-Chat in evaluating chat translation, emphasizing the importance of stylized content and dialogue consistency for future studies.
- Abstract(参考訳): チャットの複雑さは、機械翻訳モデルに重大な課題をもたらす。
チャット翻訳の課題に対処するための正確な評価基準の必要性を認識し, チャット翻訳のための多次元品質指標(MQM-Chat)を提案する。
MQM-Chatを用いた5つのモデルの実験により,全てのモデルが何らかの根本的な誤りを発生させるのに対し,各モデルには欠落,曖昧なソース内容の過度な修正,バズワードの問題など,異なる欠点があることがわかった。
本研究は,チャット翻訳評価におけるMQM-Chatの有効性を実証し,今後の研究における文体化コンテンツの重要性と対話の整合性を強調した。
関連論文リスト
- Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Chat Translation Error Detection for Assisting Cross-lingual
Communications [35.09508360315392]
システムのベースラインとしてエラー検出装置を訓練し、日本語と英語のバイリンガルチャットコーパスであるBPersona-chatを構築した。
エラー検出装置は、より高度な誤訳検出システムの基礎となる。
論文 参考訳(メタデータ) (2023-08-02T09:38:29Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。