論文の概要: Concurrent Linguistic Error Detection (CLED) for Large Language Models
- arxiv url: http://arxiv.org/abs/2403.16393v1
- Date: Mon, 25 Mar 2024 03:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:07:18.787091
- Title: Concurrent Linguistic Error Detection (CLED) for Large Language Models
- Title(参考訳): 大規模言語モデルに対する同時言語誤り検出(CLED)
- Authors: Jinhua Zhu, Javier Conde, Zhen Gao, Pedro Reviriego, Shanshan Liu, Fabrizio Lombardi,
- Abstract要約: 大規模言語モデル(LLM)に対する同時言語誤り検出(CLED)を提案する。
CLEDはLLMによって生成されたテキストの言語的特徴を抽出し、エラーを検出する同時分類器に供給する。
提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。
- 参考スコア(独自算出の注目度): 13.01669288397494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The wide adoption of Large language models (LLMs) makes their dependability a pressing concern. Detection of errors is the first step to mitigating their impact on a system and thus, efficient error detection for LLMs is an important issue. In many settings, the LLM is considered as a black box with no access to the internal nodes; this prevents the use of many error detection schemes that need access to the model's internal nodes. An interesting observation is that the output of LLMs in error-free operation should be valid and normal text. Therefore, when the text is not valid or differs significantly from normal text, it is likely that there is an error. Based on this observation we propose to perform Concurrent Linguistic Error Detection (CLED); this scheme extracts some linguistic features of the text generated by the LLM and feeds them to a concurrent classifier that detects errors. Since the proposed error detection mechanism only relies on the outputs of the model, then it can be used on LLMs in which there is no access to the internal nodes. The proposed CLED scheme has been evaluated on the T5 model when used for news summarization and on the OPUS-MT model when used for translation. In both cases, the same set of linguistic features has been used for error detection to illustrate the applicability of the proposed scheme beyond a specific case. The results show that CLED can detect most of the errors at a low overhead penalty. The use of the concurrent classifier also enables a trade-off between error detection effectiveness and its associated overhead, so providing flexibility to a designer.
- Abstract(参考訳): LLM(Large Language Model)が広く採用されているため、その信頼性が懸念される。
エラー検出はシステムへの影響を軽減するための最初のステップであり、LLMの効率的なエラー検出は重要な問題である。
多くの設定において、LCMは内部ノードにアクセスできないブラックボックスであると考えられており、モデルの内部ノードへのアクセスを必要とする多くのエラー検出スキームの使用を妨げている。
興味深い観察は、誤りのない操作におけるLLMの出力が有効であり、通常のテキストであることである。
したがって、テキストが有効でない場合や、通常のテキストと大きく異なる場合、誤りがある可能性が高い。
本手法では,LLMが生成したテキストの言語的特徴を抽出し,エラーを検出する並列分類器に供給する。
提案したエラー検出機構はモデルの出力のみに依存するため、内部ノードにアクセスできないLCMでも使用できる。
提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。
どちらの場合も、同じ言語的特徴セットが、特定の場合を超えて提案手法の適用可能性を示すために、エラー検出に使用されている。
その結果、CLEDはオーバーヘッドの少ないペナルティでほとんどのエラーを検出できることがわかった。
同時分類器を使用することで、エラー検出の有効性と関連するオーバーヘッドとのトレードオフが可能になり、デザイナに柔軟性を提供する。
関連論文リスト
- Contextual Spelling Correction with Language Model for Low-resource Setting [0.0]
文脈理解を伴うSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。
コーパスからエラー発生確率(エラーモデル)を抽出する。
LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発することができる。
論文 参考訳(メタデータ) (2024-04-28T05:29:35Z) - Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。
システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z) - Decoding Logic Errors: A Comparative Study on Bug Detection by Students
and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。
GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文 参考訳(メタデータ) (2023-11-27T17:28:33Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - A Preliminary Evaluation of LLM-Based Fault Localization [14.390580776549866]
本稿では,単一障害テストのみを必要とする自動障害ローカライゼーション手法であるAutoFLについて述べる。
我々の結果は、広く使われているDefects4Jベンチマークにおいて、AutoFLは、以前の作業から比較したすべてのスタンドアロン技術よりも、最初の試行で失敗するメソッドを特定することができることを示している。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z) - Evaluating the Capability of Large-scale Language Models on Chinese
Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文 参考訳(メタデータ) (2023-07-08T13:10:59Z) - Concurrent Classifier Error Detection (CCED) in Large Scale Machine
Learning Systems [10.839595991409828]
本稿では,CEDを機械学習システムに実装するCED(Concurrent Error Detection)を提案する。
CCEDはメインMLシステムの一連のチェック信号を識別し、エラーを検出するために訓練された同時MLにフィードする。
その結果、単純なランダムフォレスト分類器を使用すると、95%以上のエラーが検出されることがわかった。
論文 参考訳(メタデータ) (2023-06-02T12:36:05Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。