論文の概要: Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural
Scrambled Text
- arxiv url: http://arxiv.org/abs/2311.18805v1
- Date: Thu, 30 Nov 2023 18:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:10:40.424412
- Title: Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural
Scrambled Text
- Title(参考訳): 不自然なエラー訂正:GPT-4は不自然なテキストをほぼ完璧に処理できる
- Authors: Qi Cao, Takeshi Kojima, Yutaka Matsuo, Yusuke Iwasawa
- Abstract要約: GPT-4は、スクランブルされた文から元の文をほぼ完全に再構築することができる。
LLMが入力トークン化を著しく破壊しているにもかかわらず、そのようなレジリエンスを示すことは直感的ではない。
- 参考スコア(独自算出の注目度): 33.358765230741824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have achieved remarkable performance in
many tasks, much about their inner workings remains unclear. In this study, we
present novel experimental insights into the resilience of LLMs, particularly
GPT-4, when subjected to extensive character-level permutations. To investigate
this, we first propose the Scrambled Bench, a suite designed to measure the
capacity of LLMs to handle scrambled input, in terms of both recovering
scrambled sentences and answering questions given scrambled context. The
experimental results indicate that most powerful LLMs demonstrate the
capability akin to typoglycemia, a phenomenon where humans can understand the
meaning of words even when the letters within those words are scrambled, as
long as the first and last letters remain in place. More surprisingly, we found
that only GPT-4 nearly flawlessly processes inputs with unnatural errors, even
under the extreme condition, a task that poses significant challenges for other
LLMs and often even for humans. Specifically, GPT-4 can almost perfectly
reconstruct the original sentences from scrambled ones, decreasing the edit
distance by 95%, even when all letters within each word are entirely scrambled.
It is counter-intuitive that LLMs can exhibit such resilience despite severe
disruption to input tokenization caused by scrambled text.
- Abstract(参考訳): 大きな言語モデル(LLM)は多くのタスクで顕著なパフォーマンスを達成していますが、その内部の動作についてはまだ不明です。
本研究では,llm,特にgpt-4のレジリエンスについて,文字レベルの広範な置換を施す際に実験的に考察する。
そこで我々はまず,スクランブルされた文の回復と,スクランブルされた文脈の質問に対する回答の両面から,スクランブルされた入力を処理するためのLLMの容量を測定するためのスイートであるScrambled Benchを提案する。
実験の結果,最も強力なllmは,第1文字と最後の文字が残されている限り,単語の意味を人間が理解できる現象であるチポグリコミアに類似した能力を示すことが示唆された。
さらに驚くべきことに、極度の条件下であっても、不自然なエラーで入力をほぼ完璧に処理しているのはGPT-4だけであることがわかった。
特に、GPT-4は、元の文がスクランブルされた文からほぼ完全に再構築でき、各単語内のすべての文字が完全にスクランブルされている場合でも、編集距離を95%削減できる。
LLMがスクランブルテキストによる入力トークン化を著しく損なうにもかかわらず、そのようなレジリエンスを示すことは直感的ではない。
関連論文リスト
- Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Tokenization Falling Short: On Subword Robustness in Large Language Models [12.193639356480851]
本研究では,これらの課題とその言語モデルへの影響を体系的に検討する。
その結果,スケーリングモデルパラメータはトークン化の問題を軽減することができることがわかった。
実験の結果,BPEドロップアウトなどのサブワード正規化がこの問題を緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T16:05:32Z) - Resilience of Large Language Models for Noisy Instructions [38.25524275497566]
大規模言語モデル(LLM)は、ヒューマンコマンドを解釈し、様々なタスク間でテキストを生成する強力なツールとして登場した。
本研究では, ASR(Automatic Speech Recognition)エラー, OCR(Optical Character Recognition)エラー, 文法的誤り, 気まぐれな内容を含む5種類の障害に対するLLMのレジリエンスについて検討した。
以上の結果から,一部のLCMは特定の騒音に対する耐性を示すが,全体的な性能は著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T12:55:08Z) - Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文 参考訳(メタデータ) (2024-04-04T17:19:47Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。