論文の概要: Relational Preference Encoding in Looped Transformer Internal States
- arxiv url: http://arxiv.org/abs/2604.09870v1
- Date: Fri, 10 Apr 2026 20:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.72146
- Title: Relational Preference Encoding in Looped Transformer Internal States
- Title(参考訳): ループ変換器内部状態における関係優先符号化
- Authors: Jan Kirin,
- Abstract要約: ループ変換器は内部の反復状態においてどのように人間の嗜好を符号化するかを検討する。
繰り返し洗練された2.6Bパラメータループ変換器であるOuro-2.6B-Thinkingを用いて,各ループ繰り返しから隠れた状態を抽出する。
我々は、HH-RLHFデータセット上で人間の嗜好を予測するために軽量評価器ヘッドを訓練する。
我々のペアワイズ評価器は8,552個の未確認例に対して95.2%の精度を達成し、ベースモデルは完全に凍結されている間に全バッチのL-BFGSプローブ(84.5%)を上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how looped transformers encode human preference in their internal iteration states. Using Ouro-2.6B-Thinking, a 2.6B-parameter looped transformer with iterative refinement, we extract hidden states from each loop iteration and train lightweight evaluator heads (~5M parameters) to predict human preference on the Anthropic HH-RLHF dataset. Our pairwise evaluator achieves 95.2% test accuracy on 8,552 unseen examples, surpassing a full-batch L-BFGS probe (84.5%) while the base model remains completely frozen. Our central finding is that loop states encode preference predominantly relationally: a linear probe on pairwise differences achieves 84.5%, the best nonlinear independent evaluator reaches only 65% test accuracy, and linear independent classification scores 21.75%, below chance and with inverted polarity. Interpreted precisely, the evaluator functions as a model-internal consistency probe, measuring how stably Ouro's own learned value system organizes its representations rather than how well it predicts noisy human annotations. We also document a systematic architecture search that established a genuine 70% ceiling for independent scoring, and show how the 50% argument-swap protocol required to prevent degenerate pairwise solutions deflated pairwise training metrics by about 31 points at peak, creating the false appearance that pairwise and pointwise evaluators shared the same ceiling. Finally, we show that a cosine learning-rate dead zone at epoch 2 accidentally acted as early stopping, preserving the generalization peak before overfitting degraded test accuracy from 95.2% to 62.4% by epoch 5. Cross-epoch flip-test analysis shows that antisymmetry correlation remains stable while strict sign-flip rate mainly tracks scorer bias. We propose the flip test as a mandatory diagnostic for pairwise preference evaluators.
- Abstract(参考訳): ループ変換器は内部の反復状態においてどのように人間の嗜好を符号化するかを検討する。
オロ-2.6B-シンキング(Ouro-2.6B-Thinking)は、2.6Bパラメータのループ変換器であり、繰り返しの繰り返しから隠れた状態を抽出し、HH-RLHFデータセット上で人間の嗜好を予測するために軽量な評価器ヘッド(〜5Mパラメータ)を訓練する。
我々のペアワイズ評価器は8,552個の未確認例に対して95.2%の精度を達成し、ベースモデルは完全に凍結されている間に全バッチのL-BFGSプローブ(84.5%)を上回った。
我々の中心的な発見は、ループ状態が主にリレーショナルに符号化することであり、対差の線形プローブは84.5%、最良の非線形独立評価器は65%の精度に達し、線形独立分類スコアは21.75%、確率以下、逆極性を持つ。
正確には、評価器はモデル内部整合性プローブとして機能し、Ouro自身の学習価値システムがいかにノイズの多い人間のアノテーションを予測するかではなく、どのようにその表現を整理するかを安定的に測定する。
また、独立スコアリングのための真の70%の天井を確立した体系的なアーキテクチャ探索を文書化し、ペアワイズ・ソリューションの縮退を防ぐために50%の引数スワップ・プロトコルがピーク時に約31ポイントのペアワイズ・トレーニング・メトリクスをデジェネレーションし、ペアワイズとポイントワイズ・評価者が同じ天井を共有する偽の外観を作り出したことを示す。
最後に,エポック2におけるコサイン学習速度のデッドゾーンが誤って早期停止として機能することを示し, 劣化試験精度を95.2%から62.4%まで過度に適合させる前に, 一般化ピークを保った。
クロスエポックフリップテスト分析では、反対称性の相関は安定であり、厳密なサインフリップはスコアラーバイアスを主に追跡している。
ペアワイズ選好評価器の必須診断法として,フリップテストを提案する。
関連論文リスト
- Aligning to Illusions: Choice Blindness in Human and AI Feedback [2.912535004465788]
人間の選択失明研究では、過度にスワップされた好みの91%が発見されず、選択失明は不慣れなテキストの第三者による評価比較にまで及ぶ。
検出は、真の自己監視ではなく、浅いテキストマッチングに依存している。
2つのアーキテクチャにわたる線量応答実験では、報奨信号が半減する前にラベルの6分の1から3分の1を破損させなければならない。
Best-of-N評価では、これは下流の政策劣化につながると確認されている。
論文 参考訳(メタデータ) (2026-03-09T14:10:36Z) - Variational Inference for Bayesian MIDAS Regression [0.0]
線形重みパラメータージネーションを用いた回帰のための座標アセント変分推論 (CAVI) アルゴリズムを開発した。
CAVIは、107xから1,772xのスピードアップを達成しつつ、ブロックギブスサンプリングベンチマークとほぼ同一の後方手段を生成する。
重み関数パラメータは、すべてのcon gurationに対して優れたキャリブレーション(カバーは92%以上)を維持している。
論文 参考訳(メタデータ) (2026-02-23T08:51:26Z) - CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute [10.548368675645403]
CoRefineは、トークンのごく一部を使って競争精度を達成する自信誘導型自己精製法である。
コントローラはフルトレースの信頼性を消費し、停止するか、再検査するか、あるいは別のアプローチを試すかを決定する。
これをCoRefine-Treeに拡張します。これは、探索とエクスプロイトを適応的にバランスさせる、ハイブリッドなシーケンシャル並列型です。
論文 参考訳(メタデータ) (2026-02-09T17:44:41Z) - iResolveX: Multi-Layered Indirect Call Resolution via Static Reasoning and Learning-Augmented Refinement [9.184762707302099]
間接呼び出し解決はリバースエンジニアリングと制御フローグラフのリカバリにおいて重要な課題である。
iResolveXは、保守的な静的解析と学習に基づく洗練を組み合わせたフレームワークである。
iResolveXは、保守的、リコール保存、F1最適化構成の両方をサポートし、最先端システムより優れている。
論文 参考訳(メタデータ) (2026-01-25T15:42:34Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [57.474294329887236]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。