論文の概要: Dual Optimal: Make Your LLM Peer-like with Dignity
- arxiv url: http://arxiv.org/abs/2604.00979v2
- Date: Thu, 02 Apr 2026 03:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.471675
- Title: Dual Optimal: Make Your LLM Peer-like with Dignity
- Title(参考訳): Dual Optimal: LLMのピールをディグニティに
- Authors: Xiangqi Wang, Yue Huang, Haomin Zhuang, Kehan Guo, Xiangliang Zhang,
- Abstract要約: 現在のアライメント言語モデルは、Evasive Servantと呼ばれる二重障害モードを示す。
我々は,抗梅毒と信頼性の両面からサーボネスに対処するDignified Peerフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.58723842086038
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current aligned language models exhibit a dual failure mode we term the Evasive Servant: they sycophantically validate flawed user beliefs while deflecting responsibility with boilerplate disclaimers. We propose the Dignified Peer framework, which counters servility with anti-sycophancy and trustworthiness, and mitigates evasiveness through empathy and creativity. Realizing this agent requires overcoming significant challenges in data supervision, objective collapse, and evaluation bias. We address these issues by introducing the PersonaKnob dataset which features a compositional partial order structure of multiple persona preference. This data is utilized alongside a tolerant constrained Lagrangian DPO algorithm that dynamically balances all persona dimensions to prevent behavioral collapse. Additionally, we employ a psychometrically calibrated Item Response Theory evaluation protocol to disentangle latent model persona capability from confounders like judge biases. Extensive empirical studies demonstrate that our approach successfully build a LLM agent with both dignity and peer.
- Abstract(参考訳): 現在のアライメント言語モデルは、Evasive Servantと呼ばれる二重障害モードを示します。
我々は,抗梅毒と信頼性に対抗し,共感と創造性を通じて回避性を緩和するDignified Peerフレームワークを提案する。
このエージェントを実現するには、データ監視、客観的崩壊、評価バイアスにおいて重大な課題を克服する必要がある。
本稿では,複数のペルソナ選好の構成的部分順序構造を特徴とするPersonaKnobデータセットを導入することで,これらの課題に対処する。
このデータは寛容な制約付きラグランジアンDPOアルゴリズムと共に利用され、全てのペルソナ次元を動的にバランスさせて行動の崩壊を防ぐ。
さらに,心理学的に校正された項目反応理論評価プロトコルを用いて,判断バイアスなどの共同設立者から潜在モデルペルソナ能力を引き離す。
広汎な実証実験により,本手法は威厳とピアの両方でLLMエージェントを構築できた。
関連論文リスト
- Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies [28.436766185842767]
本稿では,計算仮想エスノグラフィーと定量的社会認知プロファイリングを組み合わせた新しい混合メソドックスフレームワークを提案する。
Innate Value Bias (IVB)、Persuasion Sensitivity、Trust-Action Decoupling (TAD)の3つの新しいメトリクスを形式化する。
発見は静的なプロンプトエンジニアリングの脆弱さを明らかにし、人間とエージェントのハイブリッド社会における動的アライメントの方法論的かつ定量的基盤を提供する。
論文 参考訳(メタデータ) (2026-03-24T16:38:46Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning [12.024430772980502]
本稿では,大規模言語モデル評価のためのエージェント中心ベンチマークパラダイムを提案する。
教師エージェントは、候補問題を生成し、オーケストレータエージェントは、その妥当性を厳格に検証し、敵攻撃に対するガードを行う。
生徒がその問題を正しく解いた場合、オーケストレータは教師にもっと難しい変奏曲を生成するよう促す。
論文 参考訳(メタデータ) (2026-02-27T06:54:32Z) - Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems [94.9141394384021]
マルチエージェントシステムの個々のエージェントは、しばしば堅牢性を欠き、誤解を招く仲間に盲目的に適合する傾向にある。
この弱点は, 相互信頼度を評価する能力の欠如に起因していると考えられる。
まず,歴史認識参照の学習問題を定式化し,ピア間の歴史的相互作用を付加的な入力として導入する。
次に,歴史的に構築されたピアプロファイルの予測を行うための推論フレームワークであるEcestemic Context Learning (ECL) を開発した。
論文 参考訳(メタデータ) (2026-01-29T13:59:32Z) - Potent but Stealthy: Rethink Profile Pollution against Sequential Recommendation via Bi-level Constrained Reinforcement Paradigm [44.622203626828345]
対話シーケンスを通じて動的ユーザインテントを利用するシークエンシャルリコメンダは、敵攻撃に対して脆弱である。
本報告では, ユーザインタラクションを微妙に汚染し, ターゲットの誤予測を誘発するプロファイル汚染攻撃について述べる。
本稿では,2段階の最適化フレームワークを多方向強化学習と相乗化して,対向効果とステルスネスのバランスをとる制約付き強化駆動攻撃 CREAT を提案する。
論文 参考訳(メタデータ) (2025-11-12T15:00:52Z) - Aligning Deep Implicit Preferences by Learning to Reason Defensively [22.548051297731416]
優先推論のギャップを埋めるために,批判駆動推論アライメント(CDRA)を提案する。
CDRAはスカラー報酬マッチングタスクから構造化推論プロセスにアライメントを再構成する。
実験により、CDRAは、堅牢な推論を実行しながら、ユーザの真の嗜好を発見し、整合するのに優れていることが示された。
論文 参考訳(メタデータ) (2025-10-13T09:26:47Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。