論文の概要: The Alignment Bottleneck
- arxiv url: http://arxiv.org/abs/2509.15932v1
- Date: Fri, 19 Sep 2025 12:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.16119
- Title: The Alignment Bottleneck
- Title(参考訳): The Alignment Bottleneck
- Authors: Wenjun Cao,
- Abstract要約: ループを2段階のカスケード$U to H to Y$ given$S$、認知能力$C_textcog|S$、平均総容量$barC_texttot|S$としてモデル化する。
これは、分離可能なコードブックと、KL項が$m, barC_texttot|S$で同じチャネルで制御されるPAC-Bayes上界とで証明されたデータサイズ非依存のファノ下界をペアする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models improve with scale, yet feedback-based alignment still exhibits systematic deviations from intended behavior. Motivated by bounded rationality in economics and cognitive science, we view judgment as resource-limited and feedback as a constrained channel. On this basis, we model the loop as a two-stage cascade $U \to H \to Y$ given $S$, with cognitive capacity $C_{\text{cog}|S}$ and average total capacity $\bar{C}_{\text{tot}|S}$. Our main result is a capacity-coupled Alignment Performance Interval. It pairs a data size-independent Fano lower bound proved on a separable codebook mixture with a PAC-Bayes upper bound whose KL term is controlled by the same channel via $m \, \bar{C}_{\text{tot}|S}$. The PAC-Bayes bound becomes an upper bound on the same true risk when the canonical observable loss is used and the dataset is drawn from the same mixture. Under these matched conditions, both limits are governed by a single capacity. Consequences include that, with value complexity and capacity fixed, adding labels alone cannot cross the bound; attaining lower risk on more complex targets requires capacity that grows with $\log M$; and once useful signal saturates capacity, further optimization tends to fit channel regularities, consistent with reports of sycophancy and reward hacking. The analysis views alignment as interface engineering: measure and allocate limited capacity, manage task complexity, and decide where information is spent.
- Abstract(参考訳): 大規模な言語モデルはスケールで改善されるが、フィードバックベースのアライメントは意図した振る舞いから体系的に逸脱している。
経済学と認知科学の有界合理性によって動機付けられ、判断は資源に制限されたものであり、フィードバックは制約されたチャネルであると考えている。
この場合、ループを2段階のカスケード$U \to H \to Y$ given $S$, with Cognitive capacity $C_{\text{cog}|S}$ and average total capacity $\bar{C}_{\text{tot}|S}$としてモデル化する。
私たちの主な成果はキャパシティ結合アライメントパフォーマンスインターバルです。
KL項が$m \, \bar{C}_{\text{tot}|S}$を介して同じチャネルで制御されるPAC-Bayes上界と分離可能なコードブックで証明されたデータサイズ非依存のファノ下界をペアする。
PAC-Bayes境界は、標準可観測損失が使われ、データセットが同じ混合物から引き出されるとき、同じ真のリスクの上限となる。
これらの条件の下では、両方の制限は単一の容量によって管理される。
より複雑なターゲットに対するリスクの低減には、$\log M$で成長するキャパシティが必要であり、有用なシグナルがキャパシティを飽和すると、さらなる最適化はチャネルの正規性に適合し、サイコフィナンシーや報酬ハッキングの報告と整合する傾向にある。
分析は、アライメントをインターフェースエンジニアリングとして見る: 限られたキャパシティの測定と割り当て、タスクの複雑さの管理、情報の使用場所の決定。
関連論文リスト
- A Fundamental Bound for Robust Quantum Gate Control [0.0]
我々は、モデル付きおよび非モデル付き不確実性の存在下で、コヒーレント量子制御に対する普遍的な性能限界を導出する。
最悪の場合(従って平均的な)ゲートの忠実度が下界の$F ge Flbbigl(tf Omeffbigr)$に従うことを証明します。
論文 参考訳(メタデータ) (2025-07-01T22:26:04Z) - Scheduling with Uncertain Holding Costs and its Application to Content Moderation [4.2130745016804205]
ソーシャルメディアプラットフォームにおけるコンテンツモデレーションでは、コンテンツのレビューを遅らせるコストは、そのビューの軌跡に比例する。
ジョブ状態が状態依存の即時保持コストを持つマルコフ連鎖に基づいて進化する待ち行列モデルを考える。
我々は,各ジョブをマルコフスキーレンタル問題と見なすことで,不確実性が部分的に解決した場合の将来の求職機会に適応するインデックスベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-27T15:26:24Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Provably Efficient Model-Free Constrained RL with Linear Function
Approximation [4.060731229044571]
我々は,大規模システムにおいても,サブリニア後悔とサブリニア制約違反を実現するための,最初のモデルフリーシミュレータフリーアルゴリズムを開発した。
本結果は,標準LSVI-UCBアルゴリズムの新たな適応により達成される。
論文 参考訳(メタデータ) (2022-06-23T17:54:31Z) - Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。
値関数と有限水平マルコフ決定過程の接続を確立する。
論文 参考訳(メタデータ) (2021-11-01T00:21:24Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。