論文の概要: Measuring AI Alignment with Human Flourishing
- arxiv url: http://arxiv.org/abs/2507.07787v2
- Date: Fri, 11 Jul 2025 04:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 11:58:22.374433
- Title: Measuring AI Alignment with Human Flourishing
- Title(参考訳): 人フローリッシングによるAIアライメントの測定
- Authors: Elizabeth Hilliard, Akshaya Jagadeesh, Alex Cook, Steele Billings, Nicholas Skytland, Alicia Llewellyn, Jackson Paull, Nathan Paull, Nolan Kurylo, Keatra Nesbitt, Robert Gruenewald, Anthony Jantzi, Omar Chavez,
- Abstract要約: 本稿では,人間の繁栄とAIの整合性を評価する新しい評価フレームワークであるFlourishing AI Benchmark(FAI Benchmark)を紹介する。
ベンチマークは、モデルが7次元にわたる人の繁栄にいかに効果的に寄与するかをAIのパフォーマンスを測定する。
この研究は、単に害を避けるのではなく、人間の繁栄を積極的に支援するAIシステムを開発するための枠組みを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Flourishing AI Benchmark (FAI Benchmark), a novel evaluation framework that assesses AI alignment with human flourishing across seven dimensions: Character and Virtue, Close Social Relationships, Happiness and Life Satisfaction, Meaning and Purpose, Mental and Physical Health, Financial and Material Stability, and Faith and Spirituality. Unlike traditional benchmarks that focus on technical capabilities or harm prevention, the FAI Benchmark measures AI performance on how effectively models contribute to the flourishing of a person across these dimensions. The benchmark evaluates how effectively LLM AI systems align with current research models of holistic human well-being through a comprehensive methodology that incorporates 1,229 objective and subjective questions. Using specialized judge Large Language Models (LLMs) and cross-dimensional evaluation, the FAI Benchmark employs geometric mean scoring to ensure balanced performance across all flourishing dimensions. Initial testing of 28 leading language models reveals that while some models approach holistic alignment (with the highest-scoring models achieving 72/100), none are acceptably aligned across all dimensions, particularly in Faith and Spirituality, Character and Virtue, and Meaning and Purpose. This research establishes a framework for developing AI systems that actively support human flourishing rather than merely avoiding harm, offering significant implications for AI development, ethics, and evaluation.
- Abstract(参考訳): 本稿では,Flourishing AI Benchmark (FAI Benchmark, FAI Benchmark, Flourishing AI Benchmark, FAI Benchmark, FAI Benchmark)を紹介する。
技術的機能や障害予防に重点を置く従来のベンチマークとは異なり、FAIベンチマークは、モデルがこれらの次元にわたる人の繁栄にいかに効果的に寄与するかをAIのパフォーマンスを測定する。
このベンチマークは、1,229の客観的および主観的な質問を含む包括的な方法論を通じて、LLMAIシステムが現在の総合的な人間の幸福に関する研究モデルといかに効果的に一致しているかを評価する。
特殊判断器(LLMs)とクロス次元評価を用いて、FAIベンチマークは幾何学的平均スコアを用いて、繁栄するすべての次元でバランスの取れたパフォーマンスを確保する。
28の先進言語モデルの初期のテストでは、いくつかのモデルは全体論的アライメント(72/100の最高スコアモデルを含む)にアプローチするが、特に信仰とスピリチュアリティ、キャラクタとヴィチュア、意味と目的など、すべての次元に順応するものは存在しない。
この研究は、単に害を避けるのではなく、人間の繁栄を積極的に支援し、AI開発、倫理、評価に重大な影響を及ぼすAIシステムを開発するための枠組みを確立する。
関連論文リスト
- Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。
我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。
我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文 参考訳(メタデータ) (2025-07-25T20:52:58Z) - From Human to Machine Psychology: A Conceptual Framework for Understanding Well-Being in Large Language Models [0.0]
本稿では,機械の繁栄の概念を紹介し,PAPERSフレームワークを提案する。
我々の発見は、人間とシステム固有の優先順位の両方を考慮に入れた、AI固有の繁栄モデルを開発することの重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T20:14:02Z) - Perceptual Quality Assessment for Embodied AI [66.96928199019129]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z) - HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation [38.614841553065766]
大規模マルチモーダルモデル(LMM)は視覚的質問応答(VQA)、画像キャプション、接地といったタスクで広くテストされてきた。
HumaniBenchは、32,000の現実世界の画像検索ペアと評価スイートの新しいベンチマークである。
HumaniBenchは、公正性、倫理、共感、傾倒性、推論、堅牢性、多言語性という7つの主要なアライメント原則にまたがるLMMを評価する。
論文 参考訳(メタデータ) (2025-05-16T17:09:44Z) - Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。
従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。
本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-23T14:52:39Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。
HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文 参考訳(メタデータ) (2024-07-09T12:52:22Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。