論文の概要: SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing
- arxiv url: http://arxiv.org/abs/2603.01630v2
- Date: Wed, 11 Mar 2026 11:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:43.95496
- Title: SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing
- Title(参考訳): SEED-SET: システムレベルの倫理テストのためのスケーラブル進化実験設計
- Authors: Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan,
- Abstract要約: SEED-SETは、ドメイン固有の客観的評価と利害関係者による主観的価値判断を含む実験的な設計フレームワークである。
自律エージェントの倫理的ベンチマークのためのアプローチを2つのアプリケーションで検証し、ベストを尽くす方法を見つける。
- 参考スコア(独自算出の注目度): 17.31500098002456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous systems such as drones, become increasingly deployed in high-stakes, human-centric domains, it is critical to evaluate the ethical alignment since failure to do so imposes imminent danger to human lives, and long term bias in decision-making. Automated ethical benchmarking of these systems is understudied due to the lack of ubiquitous, well-defined metrics for evaluation, and stakeholder-specific subjectivity, which cannot be modeled analytically. To address these challenges, we propose SEED-SET, a Bayesian experimental design framework that incorporates domain-specific objective evaluations, and subjective value judgments from stakeholders. SEED-SET models both evaluation types separately with hierarchical Gaussian Processes, and uses a novel acquisition strategy to propose interesting test candidates based on learnt qualitative preferences and objectives that align with the stakeholder preferences. We validate our approach for ethical benchmarking of autonomous agents on two applications and find our method to perform the best. Our method provides an interpretable and efficient trade-off between exploration and exploitation, by generating up to $2\times$ optimal test candidates compared to baselines, with $1.25\times$ improvement in coverage of high dimensional search spaces.
- Abstract(参考訳): ドローンのような自律型システムは、ハイテイクな人間中心のドメインにますます配備されるようになっているため、その失敗は人間の命に差し迫った危険を課し、意思決定における長期的なバイアスを課すため、倫理的アライメントを評価することが重要である。
これらのシステムの自動倫理的ベンチマークは、分析的にモデル化できない、ユビキタスで明確に定義された評価基準の欠如、利害関係者固有の主観性が欠如していることから検討されている。
これらの課題に対処するために、ドメイン固有の客観的評価と利害関係者の主観的価値判断を組み込んだベイズ実験設計フレームワークSEED-SETを提案する。
SEED-SETは2つの評価タイプを階層的なガウス過程と別々にモデル化し、学習された質的選好と利害関係者の選好に沿った目的に基づいて興味深い試験候補を提案する。
自律エージェントの倫理的ベンチマークのためのアプローチを2つのアプリケーションで検証し、ベストを尽くす方法を見つける。
提案手法は,高次元探索空間の網羅性の向上を図りながら,ベースラインに比べて最大2ドル/最適試験候補を最大25ドル/最適で生成することにより,探索と搾取の相互の解釈と効率的なトレードオフを提供する。
関連論文リスト
- Principled Design of Interpretable Automated Scoring for Large-Scale Educational Assessments [2.2219355720968967]
AnalyticScoreは、応答の明確な識別可能な要素を抽出し、各応答を人間の解釈可能な値に分解する。
AnalyticScoreは、ASAP-SASデータセットから平均10項目にわたって、解釈不能なSOTAの0.06 QWK以内である。
論文 参考訳(メタデータ) (2025-11-21T09:19:05Z) - Limitations of Current Evaluation Practices for Conversational Recommender Systems and the Potential of User Simulation [19.14733504795247]
本稿では,会話レコメンデーションシステム(CRS)の現在の評価実践について批判的に検討する。
静的テストコレクションへの過度な依存と,既存の評価指標の不十分という,2つの重要な制限を特定します。
本稿では,実際のユーザ満足度に適合するように設計された,一般的な報酬/コストフレームワークに基づく新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-07T07:12:47Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。
しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。
独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。
人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文 参考訳(メタデータ) (2025-08-12T16:49:18Z) - Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking [0.0]
大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。
LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
論文 参考訳(メタデータ) (2025-06-14T20:14:02Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems [1.415098516077151]
エージェントがさまざまなタスクを実行するために協力するエージェントAIシステムの台頭は、その振る舞いを観察し、分析し、最適化する上で、新たな課題を提起する。
従来の評価とベンチマークのアプローチは、これらのシステムの非決定論的、文脈に敏感で動的な性質を扱うのに苦労する。
本稿では,エージェントシステムを開発,テスト,保守にまたがって分析・最適化する上で重要な課題と機会について考察する。
論文 参考訳(メタデータ) (2025-03-09T20:02:04Z) - Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks [6.520709313101523]
本研究では,人的専門家による高い意思決定過程における認知バイアスの識別について検討する。
人間の判断を超越したバイアス対応AI拡張ワークフローを提案する。
実験では,提案モデルとエージェントワークフローの両方が,人間の判断と代替モデルの両方において有意に改善されている。
論文 参考訳(メタデータ) (2024-11-13T10:42:11Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。