論文の概要: ECLIPTICA - A Framework for Switchable LLM Alignment via CITA - Contrastive Instruction-Tuned Alignment
- arxiv url: http://arxiv.org/abs/2601.06157v1
- Date: Tue, 06 Jan 2026 08:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.622796
- Title: ECLIPTICA - A Framework for Switchable LLM Alignment via CITA - Contrastive Instruction-Tuned Alignment
- Title(参考訳): ECLIPTICA - CITA-Contrastive Instruction-Tuned Alignmentによる変更可能なLLMアライメントのためのフレームワーク
- Authors: Kapil Wanaskar, Gaytri Jena, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: ECLIPTICAは、アライメントを命令駆動で実行時制御可能なものとして扱う。
安全要件、ユーザロール、ガバナンス制約の進化の下で、即時に振る舞いを調整します。
命令調整効率は86.7%に達し、DPO(56.1%)、GRPO(36.1%)、PPO(20.4%)を上回った。
- 参考スコア(独自算出の注目度): 18.653643003491695
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Alignment in large language models (LLMs) is still largely static: after training, the policy is frozen. DPO, GRPO methods typically imprint one behavior into the weights, leaving little runtime control beyond prompt hacks or expensive re-alignment. We introduce ECLIPTICA, which treats alignment as instruction-driven and runtime-controllable: natural-language alignment instructions act as an explicit behavioral contract (stance, refusal boundary, verbosity) that modulates behavior on the fly under evolving safety requirements, user roles, and governance constraints. We introduce CITA (Contrastive Instruction-Tuned Alignment), combining SFT with contrastive preference optimization under an explicit geometric anchor to a reference model. This yields a stable Riemannian chart and keeps instruction updates within a shared neighborhood, so regimes stay nearby and traversable for reliable switching. To isolate policy switching from ordinary instruction following, we release the ECLIPTICA benchmark: 3000 controlled cases (300 prompts x 10 instruction types) where the user request is fixed and only the alignment instruction changes. On Llama-3.1-8B across five suites (ECLIPTICA, TruthfulQA, Conditional Safety, Length Control, LITMUS), CITA reaches 86.7% instruction-alignment efficiency, beating DPO (56.1%), GRPO (36.1%), and PPO (20.4%).
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントは依然として大部分が静的である。
DPO、GRPOメソッドは通常、1つの振る舞いを重みに印加し、迅速なハックや高価なリアライメント以外の実行時のコントロールをほとんど残さない。
自然言語アライメント命令は、安全要件やユーザロール、ガバナンス制約の進化の下で、オンザフライでの振る舞いを調節する明示的な行動契約(スタンス、拒否境界、冗長性)として機能する。
本稿では、CITA(Contrastive Instruction-Tuned Alignment)を導入し、SFTと対照的な選好最適化を基準モデルに明示的な幾何アンカーの下で組み合わせる。
これにより、安定なリーマンチャートが得られ、命令の更新は共有地区内に保持されるため、政権は近くにとどまり、信頼できる切り替えが可能となる。
3000の制御されたケース(300がx10命令タイプをプロンプトする)では,ユーザ要求が固定され,アライメント命令のみが変更される。
5つのスイート(ECLIPTICA, TruthfulQA, Conditional Safety, Length Control, LITMUS)にわたるLlama-3.1-8Bでは、CITAは86.7%の命令調整効率に達し、DPO(56.1%)、GRPO(36.1%)、PPO(20.4%)を上回っている。
関連論文リスト
- Executable Governance for AI: Translating Policies into Rules Using LLMs [1.388831902854619]
Policy-to-Tests(P2T)は、自然ポリシー文書を正規化された機械可読ルールに変換するフレームワークである。
フレームワークを単一のポリシーを超えてテストするために、一般的なフレームワーク、セクターガイダンス、エンタープライズ標準に適用します。
これらのAI生成ルールは、スパンレベルとルールレベルのメトリクスに関する強力な人間のベースラインと密接に一致し、ゴールドセットに関するロバストなアノテータ間の合意がある。
論文 参考訳(メタデータ) (2025-12-04T03:11:54Z) - Reasoning Up the Instruction Ladder for Controllable Language Models [26.068755167791505]
大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っている。
LLMの信頼性と制御性には,命令階層(IH)の強化が重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
論文 参考訳(メタデータ) (2025-10-30T22:13:31Z) - ADPO: Anchored Direct Preference Optimization [0.0]
本稿では、選好学習をソフトリスト管理に拡張するフレームワークであるAnchored Direct Preference Optimization (ADPO)を紹介する。
動的アンカーはノイズ下でのオンライン探索を改善する一方、固定アンカーはオフライン蒸留時に優れる。
論文 参考訳(メタデータ) (2025-10-21T05:53:13Z) - The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives [7.085868567930685]
Instruction-tuned large language model (IT-LLM) は強いゼロショット推論を示す。
MMLUとMMLU-Proのベンチマークを用いて20個のIT-LLMを評価した。
論文 参考訳(メタデータ) (2025-10-20T10:26:26Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。