Fugu-MT 論文翻訳(概要): Language Models Can Predict Their Own Behavior

論文の概要: Language Models Can Predict Their Own Behavior

arxiv url: http://arxiv.org/abs/2502.13329v1
Date: Tue, 18 Feb 2025 23:13:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.804197
Title: Language Models Can Predict Their Own Behavior
Title（参考訳）: 言語モデルは自身の振る舞いを予測できる
Authors: Dhananjay Ashok, Jonathan May,
Abstract要約: 入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
参考スコア（独自算出の注目度）: 28.80639362933004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autoregressive Language Models output text by sequentially predicting the next token to generate, with modern methods like Chain-of-Thought (CoT) prompting achieving state-of-the-art reasoning capabilities by scaling the number of generated tokens. However, are there times when we can infer how the model will behave (e.g. abstain from answering a question) early in the computation, making generation unnecessary? We show that internal representation of input tokens alone can often precisely predict, not just the next token, but eventual behavior over the entire output sequence. We leverage this capacity and learn probes on internal states to create early warning (and exit) systems. Specifically, if the probes can confidently estimate the way the LM is going to behave, then the system will avoid generating tokens altogether and return the estimated behavior instead. On 27 text classification datasets spanning five different tasks, we apply this method to estimate the eventual answer of an LM under CoT prompting, reducing inference costs by 65% (average) while suffering an accuracy loss of no more than 1.4% (worst case). We demonstrate the potential of this method to pre-emptively identify when a model will abstain from answering a question, fail to follow output format specifications, or give a low-confidence response. We explore the limits of this capability, showing that probes generalize to unseen datasets, but perform worse when LM outputs are longer and struggle to predict properties that require access to knowledge that the models themselves lack. Encouragingly, performance scales with model size, suggesting applicability to the largest of models
Abstract（参考訳）: 自動回帰言語モデルは、生成する次のトークンを逐次予測することで、テキストを出力する。しかし、計算の早い段階でモデルがどのように振る舞うか(例えば、質問に答えるのを控えるなど)を推測でき、生成を不要にすることがあるだろうか? 入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。 5つのタスクにまたがる27のテキスト分類データセットにおいて、この手法を用いて、予測コストを65%削減し、精度が1.4%未満の精度の損失を被る(不安な場合)。提案手法は,モデルが質問に答えることを避けたり,出力フォーマットの仕様に従わなかったり,信頼度が低い応答を与えたりするかどうかを事前に判断する可能性を示す。この能力の限界を探求し、プローブは未知のデータセットに一般化するが、LM出力が長く、モデル自体が欠落している知識へのアクセスを必要とする特性を予測するのに苦労すると、さらに悪化することを示す。モデルサイズによるパフォーマンススケールを拡大し、最大のモデルに適用可能であることを示唆する

関連論文リスト

The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文参考訳（メタデータ） (2025-11-16T02:01:58Z)
Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models [14.840508854268522]
推論言語モデルは、長い思考の連鎖(CoT)を生成することによって、複雑なタスクにおけるパフォーマンスを改善する我々は、CoTテキストまたはアクティベーションを用いて、様々なモニタリング手法を評価する。 CoTアクティベーションに基づいて訓練された単純な線形プローブは、最終応答が安全か安全でないかを予測する際に、テキストベースのベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-07-16T17:16:03Z)
Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文参考訳（メタデータ） (2025-07-16T16:27:50Z)
Semantic Probabilistic Control of Language Models [27.866585120174484]
セマンティック制御は、微妙な非語彙的制約を満たすためにLM世代を操る。我々は、検証者の情報勾配を利用して、対象属性を満たす全ての世代を効率的に推論する。高確率で制約を満たす世代を産出するLMの毒性, 感情, 話題順守の制御におけるアプローチの有効性を評価する。
論文参考訳（メタデータ） (2025-05-04T01:21:28Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Learning-Order Autoregressive Models with Application to Molecular Graph Generation [52.44913282062524]
本稿では,データから逐次推定される確率的順序付けを用いて高次元データを生成するARMの変種を紹介する。提案手法は,画像およびグラフ生成において有意義な自己回帰順序を学習できることを実験的に実証した。
論文参考訳（メタデータ） (2025-03-07T23:24:24Z)
Predicting Through Generation: Why Generation Is Better for Prediction [10.098410272203301]
本稿では,トークンレベルの生成が相互情報を保持するため,予測タスクにプール表現を使用するよりも,出力トークンの生成の方が効果的であると主張している。 PredGenは、(i)露光バイアスを減らすためにスケジュールサンプリングを使用するエンド・ツー・エンドのフレームワークで、(ii)生成されたトークンを構造化された出力に変換するタスクアダプタを導入します。以上の結果から,PredGenは標準ベースラインを一貫して上回り,構造化予測タスクの有効性を示した。
論文参考訳（メタデータ） (2025-02-25T03:48:19Z)
Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。 C=e(log H)1-Omega(1)$。
論文参考訳（メタデータ） (2025-02-18T02:52:00Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。 1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。そこで本研究では,テキストの出力を数次元で評価する。
論文参考訳（メタデータ） (2024-02-22T12:47:33Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。標準共形予測は厳密で統計的に保証された予測セットを生成する。我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文参考訳（メタデータ） (2023-06-16T21:55:08Z)
Induced Natural Language Rationales and Interleaved Markup Tokens Enable Extrapolation in Large Language Models [8.166629393064097]
トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
論文参考訳（メタデータ） (2022-08-24T11:25:27Z)
Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文参考訳（メタデータ） (2021-06-03T05:56:57Z)
Bayes DistNet -- A Robust Neural Network for Algorithm Runtime Distribution Predictions [1.8275108630751844]
ランダム化アルゴリズムは制約満足度問題 (CSP) やブール満足度問題 (SAT) の多くの最先端の解法で用いられている。従来の最先端の手法は、入力インスタンスが従う固定パラメトリック分布を直接予測しようとする。この新モデルは,低観測環境下での堅牢な予測性能と,検閲された観測処理を実現する。
論文参考訳（メタデータ） (2020-12-14T01:15:39Z)
Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。 MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文参考訳（メタデータ） (2020-03-27T09:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。