Fugu-MT 論文翻訳(概要): Concurrent Linguistic Error Detection (CLED) for Large Language Models

論文の概要: Concurrent Linguistic Error Detection (CLED) for Large Language Models

arxiv url: http://arxiv.org/abs/2403.16393v1
Date: Mon, 25 Mar 2024 03:17:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 16:07:18.787091
Title: Concurrent Linguistic Error Detection (CLED) for Large Language Models
Title（参考訳）: 大規模言語モデルに対する同時言語誤り検出(CLED)
Authors: Jinhua Zhu, Javier Conde, Zhen Gao, Pedro Reviriego, Shanshan Liu, Fabrizio Lombardi,
Abstract要約: 大規模言語モデル(LLM)に対する同時言語誤り検出(CLED)を提案する。 CLEDはLLMによって生成されたテキストの言語的特徴を抽出し、エラーを検出する同時分類器に供給する。提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。
参考スコア（独自算出の注目度）: 13.01669288397494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The wide adoption of Large language models (LLMs) makes their dependability a pressing concern. Detection of errors is the first step to mitigating their impact on a system and thus, efficient error detection for LLMs is an important issue. In many settings, the LLM is considered as a black box with no access to the internal nodes; this prevents the use of many error detection schemes that need access to the model's internal nodes. An interesting observation is that the output of LLMs in error-free operation should be valid and normal text. Therefore, when the text is not valid or differs significantly from normal text, it is likely that there is an error. Based on this observation we propose to perform Concurrent Linguistic Error Detection (CLED); this scheme extracts some linguistic features of the text generated by the LLM and feeds them to a concurrent classifier that detects errors. Since the proposed error detection mechanism only relies on the outputs of the model, then it can be used on LLMs in which there is no access to the internal nodes. The proposed CLED scheme has been evaluated on the T5 model when used for news summarization and on the OPUS-MT model when used for translation. In both cases, the same set of linguistic features has been used for error detection to illustrate the applicability of the proposed scheme beyond a specific case. The results show that CLED can detect most of the errors at a low overhead penalty. The use of the concurrent classifier also enables a trade-off between error detection effectiveness and its associated overhead, so providing flexibility to a designer.
Abstract（参考訳）: LLM(Large Language Model)が広く採用されているため、その信頼性が懸念される。エラー検出はシステムへの影響を軽減するための最初のステップであり、LLMの効率的なエラー検出は重要な問題である。多くの設定において、LCMは内部ノードにアクセスできないブラックボックスであると考えられており、モデルの内部ノードへのアクセスを必要とする多くのエラー検出スキームの使用を妨げている。興味深い観察は、誤りのない操作におけるLLMの出力が有効であり、通常のテキストであることである。したがって、テキストが有効でない場合や、通常のテキストと大きく異なる場合、誤りがある可能性が高い。本手法では,LLMが生成したテキストの言語的特徴を抽出し,エラーを検出する並列分類器に供給する。提案したエラー検出機構はモデルの出力のみに依存するため、内部ノードにアクセスできないLCMでも使用できる。提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。どちらの場合も、同じ言語的特徴セットが、特定の場合を超えて提案手法の適用可能性を示すために、エラー検出に使用されている。その結果、CLEDはオーバーヘッドの少ないペナルティでほとんどのエラーを検出できることがわかった。同時分類器を使用することで、エラー検出の有効性と関連するオーバーヘッドとのトレードオフが可能になり、デザイナに柔軟性を提供する。

関連論文リスト

Mis-prompt: Benchmarking Large Language Models for Proactive Error Handling [12.548079566775257]
大規模言語モデル(LLM)はエラー処理の大幅な進歩を示している。現実のシナリオでは、明示的なエラー処理命令は通常利用できない。この研究は、新しいベンチマークであるMis-promptを導入し、4つの評価タスク、エラーカテゴリ分類、新しい評価データセットからなる。
論文参考訳（メタデータ） (2025-05-29T13:52:58Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing [39.375342978538654]
機械翻訳を行うためにLLM(Large Language Models)を活用することに注力する。誤りの2つのパターンが頻繁に発生し、言語ミスマッチと繰り返しの翻訳品質に劇的な影響を与えていることを観察する。モデル編集手法を活用することにより,これらの2つの問題を緩和する可能性について検討する。
論文参考訳（メタデータ） (2024-10-09T16:51:21Z)
Insights from Benchmarking Frontier Language Models on Web App Code Generation [1.7268889851975326]
本稿では,WebApp1Kベンチマークによる16のフロンティア大言語モデル(LLM)の評価から得られた知見について述べる。結果は、全てのモデルが類似した知識を持っているが、それらの性能は、それらが犯した誤りの頻度によって区別されることを示している。
論文参考訳（メタデータ） (2024-09-08T18:24:26Z)
A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文参考訳（メタデータ） (2024-09-06T09:26:45Z)
Rectifier: Code Translation with Corrector via LLMs [11.38401806203093]
本稿では,翻訳誤りを修復するマイクロ・ユニバーサルモデルであるRectifierを提案する。 C++,Java,Python間の翻訳タスクの実験結果から,本モデルが有効な修復能力を有することが示された。
論文参考訳（メタデータ） (2024-07-10T08:58:41Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文参考訳（メタデータ） (2024-06-18T18:59:37Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Concurrent Classifier Error Detection (CCED) in Large Scale Machine Learning Systems [10.839595991409828]
本稿では,CEDを機械学習システムに実装するCED(Concurrent Error Detection)を提案する。 CCEDはメインMLシステムの一連のチェック信号を識別し、エラーを検出するために訓練された同時MLにフィードする。その結果、単純なランダムフォレスト分類器を使用すると、95%以上のエラーが検出されることがわかった。
論文参考訳（メタデータ） (2023-06-02T12:36:05Z)
Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文参考訳（メタデータ） (2023-05-28T13:19:12Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。