Fugu-MT 論文翻訳(概要): The Counterfeit Conundrum: Can Code Language Models Grasp the Nuances of Their Incorrect Generations?

論文の概要: The Counterfeit Conundrum: Can Code Language Models Grasp the Nuances of Their Incorrect Generations?

arxiv url: http://arxiv.org/abs/2402.19475v1
Date: Thu, 29 Feb 2024 18:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:16:59.048134
Title: The Counterfeit Conundrum: Can Code Language Models Grasp the Nuances of Their Incorrect Generations?
Title（参考訳）: forfeit conundrum: コード言語モデルは、誤った世代のニュアンスを把握できるのでしょうか?
Authors: Alex Gu, Wen-Ding Li, Naman Jain, Theo X. Olausson, Celine Lee, Koushik Sen, Armando Solar-Lezama
Abstract要約: 中間温度で生成できる十分なログ確率を持つ言語モデルからサンプリングされたプログラム。ほとんどのモデルは、3つの明確な障害モードを通して偽造の非常に浅い理解を持っている。与えられたモデルの偽造は、他のモデルと同じように、モデル自体を混乱させます。
参考スコア（独自算出の注目度）: 15.265721776614473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While language models are increasingly more proficient at code generation, they still frequently generate incorrect programs. Many of these programs are obviously wrong, but others are more subtle and pass weaker correctness checks such as being able to compile. In this work, we focus on these counterfeit samples: programs sampled from a language model that 1) have a high enough log-probability to be generated at a moderate temperature and 2) pass weak correctness checks. Overall, we discover that most models have a very shallow understanding of counterfeits through three clear failure modes. First, models mistakenly classify them as correct. Second, models are worse at reasoning about the execution behaviour of counterfeits and often predict their execution results as if they were correct. Third, when asking models to fix counterfeits, the likelihood of a model successfully repairing a counterfeit is often even lower than that of sampling a correct program from scratch. Counterfeits also have very unexpected properties: first, counterfeit programs for problems that are easier for a model to solve are not necessarily easier to detect and only slightly easier to execute and repair. Second, counterfeits from a given model are just as confusing to the model itself as they are to other models. Finally, both strong and weak models are able to generate counterfeit samples that equally challenge all models. In light of our findings, we recommend that care and caution be taken when relying on models to understand their own samples, especially when no external feedback is incorporated.
Abstract（参考訳）: 言語モデルはコード生成に精通する傾向にあるが、それでもしばしば誤ったプログラムを生成する。これらのプログラムの多くは明らかに間違っているが、他のプログラムはより微妙で、コンパイルできるなど、より弱い正確性チェックを通す。本研究では,これらの偽造例に注目した。言語モデルからサンプル化されたプログラム。 1) 適度な温度で発生する十分なログ確率を有し、かつ、 2)弱い補正チェックを通す。全体として、ほとんどのモデルでは、3つの明確な障害モードを通じて偽造の理解が極めて浅いことが判明した。まず、モデルを誤って正しいと分類する。第二に、モデルは偽造行為の実行行動について推論し、その実行結果を正しいかのように予測する。第三に、偽造の修正をモデルに依頼する場合、偽造の修復に成功する確率は、しばしば正しいプログラムをスクラッチからサンプリングする確率よりも低い。第一に、モデルの解決が容易な問題に対する偽造プログラムは、必ずしも検出が簡単ではなく、実行と修正がわずかに容易である。第二に、あるモデルからの偽造は、他のモデルと同様に、モデル自体を混乱させます。最後に、強いモデルと弱いモデルの両方が、全てのモデルに等しく挑戦する偽造サンプルを生成することができる。この結果を踏まえて,特に外部からのフィードバックが組み込まれていない場合には,モデルに頼って自身のサンプルを理解する場合には,注意と注意が必要であることを推奨する。

関連論文リスト

Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文参考訳（メタデータ） (2025-07-16T16:27:50Z)
Mathematical Proof as a Litmus Test: Revealing Failure Modes of Advanced Large Reasoning Models [11.250861762443801]
RFMDataset(Reveal Failure Modes)は200種類の数学的証明問題の集合である。先進モデルの性能を徹底的に評価する。解析により,現在の大規模推論モデルの基本的制約を示す10種類のきめ細かい誤差型が明らかになった。
論文参考訳（メタデータ） (2025-06-20T16:14:18Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。 ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文参考訳（メタデータ） (2024-12-09T15:11:40Z)
Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文参考訳（メタデータ） (2024-11-12T04:25:31Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文参考訳（メタデータ） (2023-01-16T09:27:45Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
Are You Stealing My Model? Sample Correlation for Fingerprinting Deep Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。 SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文参考訳（メタデータ） (2022-10-21T02:07:50Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
Fake or Genuine? Contextualised Text Representation for Fake Review Detection [0.4724825031148411]
本稿では, トランスフォーマーアーキテクチャを用いて, 偽レビューのシーケンス中に隠されたパターンを発見し, 正確に検出する新しいアンサンブルモデルを提案する。半現実的なベンチマークデータセットを用いた実験結果から,提案モデルが最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2021-12-29T00:54:47Z)
Meaningfully Explaining a Model's Mistakes [16.521189362225996]
本稿では,概念的説明スコア (CES) の体系的アプローチを提案する。 CESでは、分類器が特定のテストサンプルに対して、人間の理解可能な概念で間違いを犯す理由を説明している。また、意図的かつ既知の刺激的な相関関係を持つ新しいモデルをトレーニングしています。
論文参考訳（メタデータ） (2021-06-24T01:49:55Z)
A Note on High-Probability versus In-Expectation Guarantees of Generalization Bounds in Machine Learning [95.48744259567837]
統計的機械学習理論は、しばしば機械学習モデルの一般化を保証するよう試みる。機械学習モデルのパフォーマンスに関する声明は、サンプリングプロセスを考慮する必要がある。 1つのステートメントを別のステートメントに変換する方法を示します。
論文参考訳（メタデータ） (2020-10-06T09:41:35Z)
Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文参考訳（メタデータ） (2020-10-05T22:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。