論文の概要: Reflect: Transparent Principle-Guided Reasoning for Constitutional Alignment at Scale
- arxiv url: http://arxiv.org/abs/2601.18730v1
- Date: Mon, 26 Jan 2026 17:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.979229
- Title: Reflect: Transparent Principle-Guided Reasoning for Constitutional Alignment at Scale
- Title(参考訳): リフレクション: 大規模コンスティチューションアライメントのための透過的原則誘導推論
- Authors: Henry Bell, Caroline Zhang, Mohammed Mobasserul Haque, Dhaval Potdar, Samia Zaman, Brandon Fain,
- Abstract要約: textscreflectは、コンスティチューションアライメントのための推論時フレームワークである。
textscreflectは完全にコンテキスト内で動作し、(i)構成条件のベースレスポンスとポストジェネレーションの自己評価を組み合わせる。
以上の結果から,textscreflect は LLM の多様かつ複雑な原理への適合性を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 0.225739374955489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The constitutional framework of alignment aims to align large language models (LLMs) with value-laden principles written in natural language (such as to avoid using biased language). Prior work has focused on parameter fine-tuning techniques, such as reinforcement learning from human feedback (RLHF), to instill these principles. However, these approaches are computationally demanding, require careful engineering and tuning, and often require difficult-to-obtain human annotation data. We propose \textsc{reflect}, an inference-time framework for constitutional alignment that does not require any training or data, providing a plug-and-play approach for aligning an instruction-tuned model to a set of principles. \textsc{reflect} operates entirely in-context, combining a (i) constitution-conditioned base response with post-generation (ii) self-evaluation, (iii)(a) self-critique, and (iii)(b) final revision. \textsc{reflect}'s technique of explicit in-context reasoning over principles during post-generation outperforms standard few-shot prompting and provides transparent reasoning traces. Our results demonstrate that \textsc{reflect} significantly improves LLM conformance to diverse and complex principles, including principles quite distinct from those emphasized in the model's original parameter fine-tuning, without sacrificing factual reasoning. \textsc{reflect} is particularly effective at reducing the rate of rare but significant violations of principles, thereby improving safety and robustness in the tail end of the distribution of generations. Finally, we show that \textsc{reflect} naturally generates useful training data for traditional parameter fine-tuning techniques, allowing for efficient scaling and the reduction of inference-time computational overhead in long-term deployment scenarios.
- Abstract(参考訳): アライメントの枠組みは、大きな言語モデル(LLM)と、(バイアスのある言語の使用を避けるなど)自然言語で書かれた価値の高い原則を整合させることを目的としている。
これまでの研究は、人間のフィードバックからの強化学習(RLHF)のようなパラメータの微調整技術に重点を置いており、これらの原則を取り入れている。
しかしながら、これらのアプローチは計算的に要求され、注意深いエンジニアリングとチューニングを必要とし、しばしば人間のアノテーションデータを必要とする。
本稿では,訓練やデータを必要としないコンストラクショナルアライメントのための推論時フレームワークである‘textsc{reflect} を提案する。
\textsc{reflect} は完全に in-context を実行し、a を組み合わせます。
一 ポストジェネレーションによる構成条件ベースレスポンス
(二)自己評価
(三)
a)自己批判,及び
(三)
(b)最終改訂。
\textsc{reflect} の、ポストジェネレーションの原理に対する明示的な文脈内推論のテクニックは、標準的な数発のプロンプトを上回り、透明な推論トレースを提供する。
以上の結果から,<textsc{reflect} は多様かつ複雑な原則に対する LLM の適合性を著しく改善することを示した。
\textsc{reflect} は、稀だが重要な原則違反の率を下げ、世代分布の尾端における安全性と堅牢性を改善するのに特に効果的である。
最後に, <textsc{reflect} は, 従来のパラメータ微調整技術で有用なトレーニングデータを自然に生成することを示し, 長期展開シナリオにおいて, 効率的なスケーリングと推論時間計算オーバーヘッドの低減を可能にする。
関連論文リスト
- VCORE: Variance-Controlled Optimization-based Reweighting for Chain-of-Thought Supervision [9.028503801131933]
我々はtextbfVariance-textbfControlled textbfOptimization-based textbfREweighting (VCORE)を紹介する。
最適化理論の観点を採用することで、VCOREはトークン間での監督の原則的かつ適応的な割り当てを可能にする。
経験的評価は、VCOREが既存のトークン再重み付け法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-31T13:19:24Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Decoding Human Preferences in Alignment: An Improved Approach to Inverse Constitutional AI [0.0]
大規模言語モデル(LLM)を整合させるルールベースのフレームワークを開発する。
Inverse Constitutional AI (ICAI)アルゴリズムを改良し、好みのデータセットから構成を抽出する。
我々の結果は、これらの原則がより透明で適応可能なアライメント手法を促進する可能性を強調します。
論文 参考訳(メタデータ) (2025-01-28T17:59:56Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。