論文の概要: Position: We Need An Adaptive Interpretation of Helpful, Honest, and Harmless Principles
- arxiv url: http://arxiv.org/abs/2502.06059v1
- Date: Sun, 09 Feb 2025 22:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:50.549595
- Title: Position: We Need An Adaptive Interpretation of Helpful, Honest, and Harmless Principles
- Title(参考訳): ポジション: 助け、正直、無害な原則を適応的に解釈する必要がある
- Authors: Yue Huang, Chujie Gao, Yujun Zhou, Kehan Guo, Xiangqi Wang, Or Cohen-Sasson, Max Lamparth, Xiangliang Zhang,
- Abstract要約: Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるためのフレームワークである。
我々は,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
この作業は、AIアライメントを改善するための実践的な洞察を提供し、HHH原則が現実のAIデプロイメントにおいて基礎的かつ運用的に有効であることを保証する。
- 参考スコア(独自算出の注目度): 24.448749292993234
- License:
- Abstract: The Helpful, Honest, and Harmless (HHH) principle is a foundational framework for aligning AI systems with human values. However, existing interpretations of the HHH principle often overlook contextual variability and conflicting requirements across applications. In this paper, we argue for an adaptive interpretation of the HHH principle and propose a reference framework for its adaptation to diverse scenarios. We first examine the principle's foundational significance and identify ambiguities and conflicts through case studies of its dimensions. To address these challenges, we introduce the concept of priority order, which provides a structured approach for balancing trade-offs among helpfulness, honesty, and harmlessness. Further, we explore the interrelationships between these dimensions, demonstrating how harmlessness and helpfulness can be jointly enhanced and analyzing their interdependencies in high-risk evaluations. Building on these insights, we propose a reference framework that integrates context definition, value prioritization, risk assessment, and benchmarking standards to guide the adaptive application of the HHH principle. This work offers practical insights for improving AI alignment, ensuring that HHH principles remain both ethically grounded and operationally effective in real-world AI deployment.
- Abstract(参考訳): Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるための基本的なフレームワークである。
しかし、既存のHHH原則の解釈は、しばしば、アプリケーション間でのコンテキスト変動と矛盾する要求を見落としている。
本稿では,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
まず、原理の基本的意義を考察し、その次元のケーススタディを通してあいまいさと矛盾を識別する。
これらの課題に対処するために、我々は、重要度、誠実さ、無害性のトレードオフのバランスをとるための構造化されたアプローチを提供する優先順序の概念を導入します。
さらに、これらの次元間の相互関係について検討し、高リスク評価において、無害感と無益性が協調的に強化され、相互依存性を解析できることを実証する。
これらの知見に基づいて、HHH原則の適応的適用を導くために、文脈定義、価値優先順位付け、リスク評価、ベンチマーク標準を統合した参照フレームワークを提案する。
この研究は、AIのアライメントを改善するための実践的な洞察を提供し、HHHの原則が倫理的に基礎付けられ、現実のAIデプロイメントにおいて運用的に有効であることを保証する。
関連論文リスト
- On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [314.7991906491166]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Bridging the Gap in XAI-Why Reliable Metrics Matter for Explainability and Compliance [2.3020018305241337]
この論文は、標準化された信頼性のあるメトリクスが欠如していることから、説明可能なAI(XAI)の評価における重要なギャップを強調している。
現在の評価手法は、しばしば断片化され、主観的、偏見的であり、複雑なモデルの評価を操作し複雑にする傾向がある。
我々は、堅牢で文脈に敏感な評価指標を開発するための広範な研究を提唱する。
論文 参考訳(メタデータ) (2025-02-07T06:54:48Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Where Assessment Validation and Responsible AI Meet [0.0876953078294908]
本稿では,古典的テスト検証理論と評価固有のドメインに依存しないRAIの原則と実践を考察する統合評価フレームワークを提案する。
このフレームワークは、妥当性議論をサポートする評価のための責任あるAI使用、人間の価値と監視を維持するためのAI倫理との整合性、そしてAI使用に関連するより広範な社会的責任に対処する。
論文 参考訳(メタデータ) (2024-11-04T20:20:29Z) - Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文 参考訳(メタデータ) (2024-08-30T03:14:20Z) - Disciplining Deliberation: A Sociotechnical Perspective on Machine Learning Trade-offs [0.0]
人工知能における2つの顕著なトレードオフは、予測精度と公正性、予測精度と解釈可能性の間のものである。
一般的な解釈では、これらの形式的なトレードオフは、根底にある社会的価値の間の緊張と直接的に対応していると見なされている。
トレードオフの価値を検証するための社会技術的アプローチを紹介します。
論文 参考訳(メタデータ) (2024-03-07T05:03:18Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - A Systematic Review on Fostering Appropriate Trust in Human-AI
Interaction [19.137907393497848]
人工知能の適切な信頼(AI)システムは、研究者と実践者の両方にとって、急速に重要な領域になってきた。
信頼度スコア、説明、信頼度基準、不確実性通信など、様々なアプローチがそれを達成するために使われてきた。
本稿では、適切な信頼を構築するための現在の実践、それを測定するためのさまざまな方法、使用するタスクの種類、それに関連する潜在的な課題を特定するための体系的なレビューを示す。
論文 参考訳(メタデータ) (2023-11-08T12:19:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。