論文の概要: An Uncertainty-Driven Adaptive Self-Alignment Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.17477v1
- Date: Wed, 23 Jul 2025 13:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.998383
- Title: An Uncertainty-Driven Adaptive Self-Alignment Framework for Large Language Models
- Title(参考訳): 大規模言語モデルのための不確実性駆動適応型自己アライメントフレームワーク
- Authors: Haoran Sun, Zekun Zhang, Shaoning Zeng,
- Abstract要約: 大規模言語モデル(LLM)は、命令の追従と汎用推論において顕著な進歩を示している。
人間の意図と人間のアノテーションのない安全基準との高品質な整合性は、依然として根本的な課題である。
完全自動でLLMアライメントを改善するために,不確実性駆動型適応型自己アライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.62332474172811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable progress in instruction following and general-purpose reasoning. However, achieving high-quality alignment with human intent and safety norms without human annotations remains a fundamental challenge. In this work, we propose an Uncertainty-Driven Adaptive Self-Alignment (UDASA) framework designed to improve LLM alignment in a fully automated manner. UDASA first generates multiple responses for each input and quantifies output uncertainty across three dimensions: semantics, factuality, and value alignment. Based on these uncertainty scores, the framework constructs preference pairs and categorizes training samples into three stages, conservative, moderate, and exploratory, according to their uncertainty difference. The model is then optimized progressively across these stages. In addition, we conduct a series of preliminary studies to validate the core design assumptions and provide strong empirical motivation for the proposed framework. Experimental results show that UDASA outperforms existing alignment methods across multiple tasks, including harmlessness, helpfulness, truthfulness, and controlled sentiment generation, significantly improving model performance.
- Abstract(参考訳): 大規模言語モデル (LLM) は命令の追従や汎用推論において顕著な進歩を見せている。
しかしながら、人間の意図や安全基準と人間のアノテーションを伴わない高品質なアライメントを実現することは、依然として根本的な課題である。
本研究では,LLMアライメントを完全自動で改善するために,不確実性駆動型適応自己アライメント(UDASA)フレームワークを提案する。
UDASAはまず、入力毎に複数の応答を生成し、セマンティクス、事実性、値アライメントの3次元にわたる出力の不確実性を定量化する。
これらの不確実性スコアに基づいて、このフレームワークは、選好ペアを構築し、トレーニングサンプルを、その不確実性の違いに応じて、保守的、中道的、探索的な3つのステージに分類する。
その後、モデルはこれらの段階にわたって段階的に最適化される。
さらに,コア設計の前提を検証し,提案フレームワークの実証的モチベーションを高めるために,一連の予備的研究を行った。
実験の結果、UDASAは、無害性、助け合い性、真実性、制御された感情生成など、複数のタスクにまたがる既存のアライメント手法よりも優れており、モデル性能が大幅に向上していることがわかった。
関連論文リスト
- Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [49.9801383018588]
シンボル報酬の自動分解手法であるQA-LIGNを導入する。
モノリシックスコアを出力するブラックボックス報酬モデルをトレーニングする代わりに、QA-LIGNは原則固有の評価質問を定式化する。
QA-LIGNはより透明性と適応性を提供することを示した。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Evaluation of Seismic Artificial Intelligence with Uncertainty [0.0]
ディープラーニングモデル(DLM)の評価と比較のための評価フレームワークを開発する。
私たちのフレームワークは、実践者が自身の問題に対して最適なモデルを選択し、パフォーマンスの期待を定めるのに役立ちます。
論文 参考訳(メタデータ) (2025-01-15T16:45:51Z) - SMLE: Safe Machine Learning via Embedded Overapproximation [4.129133569151574]
本研究は,デザイナ・ちょうせん特性を満たすことが保証される識別可能なMLモデルを訓練する作業について考察する。
現代のニューラルモデルにおけるコンプライアンスの厳格な検証と実施という計算複雑性のため、これは非常に難しい。
1)保守的なセマンティクスによる効率的な検証を可能にする汎用的,シンプルなアーキテクチャ。
回帰における線形不等式によって定義される特性と、多重ラベル分類における相互排他的クラスに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-09-30T17:19:57Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。