論文の概要: ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment
- arxiv url: http://arxiv.org/abs/2512.06196v1
- Date: Fri, 05 Dec 2025 22:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.231772
- Title: ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment
- Title(参考訳): ARCANE: 解釈および構成可能なアライメントのためのマルチエージェントフレームワーク
- Authors: Charlie Masters, Marta Grześkiewicz, Stefano V. Albrecht,
- Abstract要約: ARCANEは、複数エージェントの協調問題としてアライメントをフレーム化して、自然言語のルーリックとして利害関係者の好みを動的に表現するフレームワークである。
実用理論に着想を得て, ルーブリック学習を再構築問題として定式化し, 正規化グループシーケンスポリシー最適化(GSPO)手法を適用した。
以上の結果から,ルーブリックに基づく報酬モデルが,複雑な長軸AIシステムに対して,解釈可能な,テスト時適応アライメントへの有望な経路を提供することが示された。
- 参考スコア(独自算出の注目度): 11.754819989978785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agents based on large language models are increasingly deployed to long-horizon tasks, maintaining their alignment with stakeholder preferences becomes critical. Effective alignment in such settings requires reward models that are interpretable so that stakeholders can understand and audit model objectives. Moreover, reward models must be capable of steering agents at interaction time, allowing preference shifts to be incorporated without retraining. We introduce ARCANE, a framework that frames alignment as a multi-agent collaboration problem that dynamically represents stakeholder preferences as natural-language rubrics: weighted sets of verifiable criteria that can be generated on-the-fly from task context. Inspired by utility theory, we formulate rubric learning as a reconstruction problem and apply a regularized Group-Sequence Policy Optimization (GSPO) procedure that balances interpretability, faithfulness, and computational efficiency. Using a corpus of 219 labeled rubrics derived from the GDPVal benchmark, we evaluate ARCANE on challenging tasks requiring multi-step reasoning and tool use. The learned rubrics produce compact, legible evaluations and enable configurable trade-offs (e.g., correctness vs. conciseness) without retraining. Our results show that rubric-based reward models offer a promising path toward interpretable, test-time adaptive alignment for complex, long-horizon AI systems.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントは、長期的タスクにますますデプロイされるため、ステークホルダーの好みとの整合性を維持することが重要である。
このような設定を効果的に調整するには、ステークホルダーがモデルの目的を理解し監査できるように解釈可能な報酬モデルが必要です。
さらに、報酬モデルは相互作用時にエージェントを操ることができなければならず、リトレーニングなしで好みのシフトを組み込むことができる。
我々は,多エージェント協調問題としてアライメントをフレーム化するフレームワークであるARCANEを紹介した。
実用理論に着想を得て,ルーブリック学習を再構築問題として定式化し,解釈可能性,忠実性,計算効率のバランスをとる正規化グループシーケンスポリシー最適化(GSPO)手法を適用した。
GDPValベンチマークから得られた219個のラベル付きルーリックのコーパスを用いて,多段階推論とツール利用を必要とする課題に対してARCANEを評価する。
学習されたルーリックはコンパクトで妥当な評価を行い、再構成することなく構成可能なトレードオフ(例えば、正確さと簡潔さ)を可能にする。
以上の結果から,ルーブリックに基づく報酬モデルが,複雑な長軸AIシステムに対して,解釈可能な,テスト時適応アライメントへの有望な経路を提供することが示された。
関連論文リスト
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [91.17994756436259]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。
既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。
協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:17:41Z) - Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems [0.8437187555622164]
大規模言語モデル(LLM)エージェントは、協調的なタスク補完の約束が増していることを示している。
既存のマルチエージェントフレームワークは、静的で固定されたロールと限定的なエージェント間通信に依存していることが多い。
本稿では,3つのコア機構による適応性を実現するための協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T22:42:51Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。