論文の概要: Aligning Compound AI Systems via System-level DPO
- arxiv url: http://arxiv.org/abs/2502.17721v1
- Date: Mon, 24 Feb 2025 23:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:02.173786
- Title: Aligning Compound AI Systems via System-level DPO
- Title(参考訳): システムレベルのDPOによる複合AIシステムの調整
- Authors: Xiangwen Wang, Yibo Jacky Zhang, Zhoujie Ding, Katherine Tsai, Sanmi Koyejo,
- Abstract要約: 本稿では,これらのDAGの操作にDPOを適用することで,複合系を協調的に整合させるシステムレベルDPOを提案する。
私たちの調査は、複合AIシステムの整合性に関する洞察を与え、将来の進歩の基盤を築き上げます。
- 参考スコア(独自算出の注目度): 14.017369528123096
- License:
- Abstract: Compound AI systems, comprising multiple interacting components such as LLM agents and external tools, demonstrate state-of-the-art results across diverse tasks. It is hence crucial to align components within the system to produce consistent results that match human expectations. However, conventional alignment methods, such as Direct Preference Optimization (DPO), are not directly applicable to compound AI systems. These challenges include the non-differentiable interactions between components, making end-to-end gradient optimization infeasible. Additionally, system-level preferences cannot be directly translated into component-level preferences, further complicating alignment. We address the issues by formulating compound AI systems as Directed Acyclic Graphs (DAGs), capturing the connections between agents and the data generation processes. We propose a system-level DPO (SysDPO) to jointly align compound systems by adapting the DPO to operate on these DAGs. We study the joint alignment of an LLM and a diffusion model to demonstrate the effectiveness of our approach. Our exploration provides insights into the alignment of compound AI systems and lays a foundation for future advancements.
- Abstract(参考訳): LLMエージェントや外部ツールなどの複数のインタラクションコンポーネントで構成される複合AIシステムは、さまざまなタスクで最先端の結果を示す。
したがって、システム内のコンポーネントを調整して、人間の期待に合う一貫性のある結果を生成することが重要です。
しかし、DPO(Direct Preference Optimization)のような従来のアライメント手法は、複合AIシステムに直接適用できない。
これらの課題には、コンポーネント間の非微分可能相互作用が含まれており、エンドツーエンドの勾配最適化が実現不可能である。
さらに、システムレベルの嗜好はコンポーネントレベルの選好に直接変換できないため、アライメントが複雑になる。
我々は、複合AIシステムをDAG(Directed Acyclic Graphs)として定式化し、エージェントとデータ生成プロセス間の接続をキャプチャすることで、この問題に対処する。
本稿では,これらのDAGの操作にDPOを適用することで,複合系を協調的に整合させるシステムレベルDPOを提案する。
本研究では, LLMと拡散モデルの結合アライメントについて検討し, 提案手法の有効性を実証する。
私たちの調査は、複合AIシステムの整合性に関する洞察を与え、将来の進歩の基盤を築き上げます。
関連論文リスト
- SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な目標指向の社会対話を扱うには不十分である。
トレーニングノイズを最小限に抑えつつ,マルチターンエージェントの動作を最適化するために,Segment-Level Direct Preference Optimization (SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z) - How to Correctly do Semantic Backpropagation on Language-based Agentic Systems [23.4193991777817]
セマンティック・バックプロパゲーションの概念をセマンティック・グラデーションで定式化する。
これは、各コンポーネントの変更がシステムの出力をどのように改善するかについての方向性情報を計算する方法として機能する。
BIG-Bench Hard と GSM8K の2つの実験結果から,GASO 問題を解く上で,既存の最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-04T15:52:03Z) - LLM-based Optimization of Compound AI Systems: A Survey [64.39860384538338]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。
近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。
本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - Adaptive Active Inference Agents for Heterogeneous and Lifelong Federated Learning [4.274943486546923]
本研究では,グローバルシステムの制約を高レベルなSLOとして設定できる異種普及型システムの概念的エージェントを提案する。
私たちは、異なるリソースタイプとベンダー仕様を持つデバイスの物理的テストベッドで実験を行います。
AIFエージェントは、資源不均質環境で競合するSLOをバランスさせ、最大98%の充足率を確保することができる。
論文 参考訳(メタデータ) (2024-10-09T10:43:29Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Self-Adaptive Large Language Model (LLM)-Based Multiagent Systems [0.0]
本稿では,大規模言語モデル(LLM)をマルチエージェントシステムに統合することを提案する。
我々は、モニタリング、分析、計画、システム適応の実行において堅牢なサポートで有名であるMAPE-Kモデルに、我々の方法論を固定する。
論文 参考訳(メタデータ) (2023-07-12T14:26:46Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - Learning to Decouple Complex Systems [11.674072457685007]
本研究では,不規則なサンプルや散逸した逐次観測を扱うための逐次学習手法を提案する。
我々は、単純体の中で進化するメタシステムは射影微分方程式(ProjDEs)によって支配されると主張する。
論文 参考訳(メタデータ) (2023-02-03T07:24:58Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z) - DHA: End-to-End Joint Optimization of Data Augmentation Policy,
Hyper-parameter and Architecture [81.82173855071312]
本稿では,AutoMLコンポーネントを統合したエンドツーエンドソリューションを提案する。
Dhaは、様々なデータセット、特にセルベースの検索空間を持つImageNetの77.4%の精度で、最先端(SOTA)結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T08:12:50Z) - Better Together -- An Ensemble Learner for Combining the Results of
Ready-made Entity Linking Systems [2.163881720692685]
我々は、同一コーパス上の異なるELシステムの結果を活用することで、性能を最適化できると主張している。
本稿では,複数の既製のELシステムの出力を,インメンションごとに正しいリンクを予測することで活用する,監視手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T14:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。