論文の概要: Dynamic Alignment for Collective Agency: Toward a Scalable Self-Improving Framework for Open-Ended LLM Alignment
- arxiv url: http://arxiv.org/abs/2512.05464v1
- Date: Fri, 05 Dec 2025 06:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.923341
- Title: Dynamic Alignment for Collective Agency: Toward a Scalable Self-Improving Framework for Open-Ended LLM Alignment
- Title(参考訳): 集合体アライメントのための動的アライメント:オープンエンディングLLMアライメントのためのスケーラブルな自己改善フレームワークを目指して
- Authors: Panatchakorn Anantaprayoon, Nataliia Babina, Jad Tarifi, Nima Asgharbeygi,
- Abstract要約: 大規模言語モデル(LLM)は一般的に、好みのデータや、有用性、正直性、無害性といった事前定義された原則を使って、人間の価値と整合する。
AIシステムがAI(Artificial General Intelligence, AGI)やArtificial Superintelligence(Artificial Superintelligence, ASI)へと進むにつれ、そのような価値システムは不十分になる可能性がある。
本研究では、より包括的なアライメント目標と、スケーラブルで自己改善的なアライメントアプローチの両方について検討する。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are typically aligned with human values using preference data or predefined principles such as helpfulness, honesty, and harmlessness. However, as AI systems progress toward Artificial General Intelligence (AGI) and Artificial Superintelligence (ASI), such value systems may become insufficient. In addition, human feedback-based alignment remains resource-intensive and difficult to scale. While AI-feedback-based self-improving alignment methods have been explored as a scalable alternative, they have largely remained constrained to conventional alignment values. In this work, we explore both a more holistic alignment objective and a scalable, self-improving alignment approach. Aiming to transcend conventional alignment norms, we introduce Collective Agency (CA)-a unified and open-ended alignment value that encourages integrated agentic capabilities. We also propose Dynamic Alignment-an alignment framework that enables an LLM to iteratively align itself. Dynamic Alignment comprises two key components: (1) automated training dataset generation with LLMs, and (2) a self-rewarding mechanism, where the policy model evaluates its own output candidates and assigns rewards for GRPO-based learning. Experimental results demonstrate that our approach successfully aligns the model to CA while preserving general NLP capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は一般的に、好みのデータや、有用性、正直性、無害性といった事前定義された原則を使って、人間の価値と整合する。
しかし、AIシステムが人工知能(AGI)やAIスーパーインテリジェンス(ASI)へと進むにつれ、そのような価値体系が不十分になる可能性がある。
加えて、人間のフィードバックに基づくアライメントは、リソース集約的でスケールが難しいままです。
AIフィードバックに基づく自己改善アライメント手法はスケーラブルな代替手段として検討されてきたが、それらは従来のアライメント値に大きく制約されている。
本研究では、より包括的なアライメント目標と、スケーラブルで自己改善的なアライメントアプローチの両方について検討する。
従来のアライメント規範を超越することを目的として,エージェント機能の統合を促進する統一的かつオープンなアライメント値である Collective Agency (CA) を導入する。
また,LLMを反復的にアライメントできる動的アライメント・アライメント・フレームワークを提案する。
動的アライメントは,(1)LPMを用いた自動トレーニングデータセット生成,(2)自己回帰機構,(2)ポリシーモデルによる出力候補の評価,GRPOに基づく学習に対する報酬の付与,の2つの重要な構成要素から構成される。
実験の結果,本手法は一般のNLP能力を保ちながら,モデルとCAの整合性を実証した。
関連論文リスト
- The Realignment Problem: When Right becomes Wrong in LLMs [6.8304813545377]
大規模な言語モデルと人間の価値の整合性は、安全なデプロイメントの中心であるが、現在のモデルは、進化する規範やポリシーに追随しない。
既存の未学習の手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。
本稿では,プログラミング政策問題として再認識する原則的アンラーニングの枠組みであるTRACEを紹介する。
論文 参考訳(メタデータ) (2025-11-04T14:52:58Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文 参考訳(メタデータ) (2025-04-07T03:48:02Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Towards Scalable Automated Alignment of LLMs: A Survey [54.820256625544225]
本稿では,最近登場した自動アライメントの手法を体系的にレビューする。
既存の自動アライメント手法をアライメント信号のソースに基づいて4つの主要なカテゴリに分類する。
本稿では,アライメントの基本的役割から,自動アライメント技術の実現を可能にする重要な要因について論じる。
論文 参考訳(メタデータ) (2024-06-03T12:10:26Z) - DeAL: Decoding-time Alignment for Large Language Models [58.368979253590794]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
我々は,報酬関数をカスタマイズし,LLMの復号時間アライメントを可能にするフレームワークであるDeALを提案する。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。