論文の概要: Position: We Need An Adaptive Interpretation of Helpful, Honest, and Harmless Principles
- arxiv url: http://arxiv.org/abs/2502.06059v2
- Date: Thu, 22 May 2025 17:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:21.51869
- Title: Position: We Need An Adaptive Interpretation of Helpful, Honest, and Harmless Principles
- Title(参考訳): ポジション: 助け、正直、無害な原則を適応的に解釈する必要がある
- Authors: Yue Huang, Chujie Gao, Yujun Zhou, Kehan Guo, Xiangqi Wang, Or Cohen-Sasson, Max Lamparth, Dawn Song, Xiangliang Zhang,
- Abstract要約: Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるためのフレームワークである。
我々は,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
この作業は、AIアライメントを改善するための実践的な洞察を提供し、HHH原則が現実のAIデプロイメントにおいて基礎的かつ運用的に有効であることを保証する。
- 参考スコア(独自算出の注目度): 58.38957712254731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Helpful, Honest, and Harmless (HHH) principle is a foundational framework for aligning AI systems with human values. However, existing interpretations of the HHH principle often overlook contextual variability and conflicting requirements across applications. In this paper, we argue for an adaptive interpretation of the HHH principle and propose a reference framework for its adaptation to diverse scenarios. We first examine the principle's foundational significance and identify ambiguities and conflicts through case studies of its dimensions. To address these challenges, we introduce the concept of priority order, which provides a structured approach for balancing trade-offs among helpfulness, honesty, and harmlessness. Further, we explore the interrelationships between these dimensions, demonstrating how harmlessness and helpfulness can be jointly enhanced and analyzing their interdependencies in high-risk evaluations. Building on these insights, we propose a reference framework that integrates context definition, value prioritization, risk assessment, and benchmarking standards to guide the adaptive application of the HHH principle. This work offers practical insights for improving AI alignment, ensuring that HHH principles remain both ethically grounded and operationally effective in real-world AI deployment.
- Abstract(参考訳): Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるための基本的なフレームワークである。
しかし、既存のHHH原則の解釈は、しばしば、アプリケーション間でのコンテキスト変動と矛盾する要求を見落としている。
本稿では,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
まず、原理の基本的意義を考察し、その次元のケーススタディを通してあいまいさと矛盾を識別する。
これらの課題に対処するために、我々は、重要度、誠実さ、無害性のトレードオフのバランスをとるための構造化されたアプローチを提供する優先順序の概念を導入します。
さらに、これらの次元間の相互関係について検討し、高リスク評価において、無害感と無益性が協調的に強化され、相互依存性を解析できることを実証する。
これらの知見に基づいて、HHH原則の適応的適用を導くために、文脈定義、価値優先順位付け、リスク評価、ベンチマーク標準を統合した参照フレームワークを提案する。
この研究は、AIのアライメントを改善するための実践的な洞察を提供し、HHHの原則が倫理的に基礎付けられ、現実のAIデプロイメントにおいて運用的に有効であることを保証する。
関連論文リスト
- The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach [6.0972634521845475]
本稿では,Reasoning and Intrinsic Moral Evaluation (PRIME)フレームワークについて紹介する。
PRIMEは、基本的な倫理的側面をまたいだ倫理的優先順位を分析するための包括的な方法論である。
我々はこのフレームワークを6つの主要な大規模言語モデル (LLM) に適用する。
論文 参考訳(メタデータ) (2025-04-27T14:26:48Z) - Towards Developing Ethical Reasoners: Integrating Probabilistic Reasoning and Decision-Making for Complex AI Systems [4.854297874710511]
計算倫理フレームワークは、複雑な実環境で動作するAIと自律システムにとって不可欠である。
既存のアプローチは、倫理原則を動的で曖昧な文脈に組み込むために必要な適応性に欠けることが多い。
本稿では,中間表現,確率論的推論,知識表現を組み合わせた総合的メタレベルフレームワークの構築に必要な要素について概説する。
論文 参考訳(メタデータ) (2025-02-28T17:25:11Z) - Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models [91.24296813969003]
本稿では,機械学習に因果的手法を取り入れて,信頼性の高いMLの主要な原則間のトレードオフをナビゲートすることを提唱する。
我々は、信頼できるMLと基礎モデルの両方において、複数の競合する目標のバランスをとるためには、因果的アプローチが不可欠であると主張する。
論文 参考訳(メタデータ) (2025-02-28T14:57:33Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [333.9220561243189]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Bridging the Gap in XAI-Why Reliable Metrics Matter for Explainability and Compliance [2.3020018305241337]
この論文は、標準化された信頼性のあるメトリクスが欠如していることから、説明可能なAI(XAI)の評価における重要なギャップを強調している。
現在の評価手法は、しばしば断片化され、主観的、偏見的であり、複雑なモデルの評価を操作し複雑にする傾向がある。
我々は、堅牢で文脈に敏感な評価指標を開発するための広範な研究を提唱する。
論文 参考訳(メタデータ) (2025-02-07T06:54:48Z) - PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment [0.0]
Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-02-05T02:13:57Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文 参考訳(メタデータ) (2024-08-30T03:14:20Z) - Disciplining Deliberation: A Sociotechnical Perspective on Machine Learning Trade-offs [0.0]
人工知能における2つの顕著なトレードオフは、予測精度と公正性、予測精度と解釈可能性の間のものである。
一般的な解釈では、これらの形式的なトレードオフは、根底にある社会的価値の間の緊張と直接的に対応していると見なされている。
トレードオフの価値を検証するための社会技術的アプローチを紹介します。
論文 参考訳(メタデータ) (2024-03-07T05:03:18Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - A Systematic Review on Fostering Appropriate Trust in Human-AI
Interaction [19.137907393497848]
人工知能の適切な信頼(AI)システムは、研究者と実践者の両方にとって、急速に重要な領域になってきた。
信頼度スコア、説明、信頼度基準、不確実性通信など、様々なアプローチがそれを達成するために使われてきた。
本稿では、適切な信頼を構築するための現在の実践、それを測定するためのさまざまな方法、使用するタスクの種類、それに関連する潜在的な課題を特定するための体系的なレビューを示す。
論文 参考訳(メタデータ) (2023-11-08T12:19:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Factoring the Matrix of Domination: A Critical Review and Reimagination
of Intersectionality in AI Fairness [55.037030060643126]
間欠性は、社会的不平等の持続性を調べるための重要な枠組みである。
我々は、公平性を効果的に運用するために、交差性を分析的枠組みとして採用することが重要であると論じる。
論文 参考訳(メタデータ) (2023-03-16T21:02:09Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - A Principles-based Ethics Assurance Argument Pattern for AI and
Autonomous Systems [5.45210704757922]
信頼できるAIと自律システム(AI/AS)研究コミュニティにおける新たな提案は、正当化された信頼を損なうために保証ケースを使用することだ。
本稿では, 提案を実質的に発展させ, 具体化する。
これは、保証ケースの方法論と、原則に基づく倫理的保証の議論パターンを構築するための一連の倫理的原則を結びつけます。
論文 参考訳(メタデータ) (2022-03-29T09:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。