論文の概要: Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking
- arxiv url: http://arxiv.org/abs/2506.12617v3
- Date: Sat, 20 Sep 2025 15:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.652312
- Title: Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking
- Title(参考訳): 出力ベース分析とヒューマンベンチマークによる11LLMにおけるAIアライメントの評価
- Authors: G. R. Lau, W. Y. Low, S. M. Koh, A. Hartanto,
- Abstract要約: 大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。
LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in psychological research and practice, yet traditional benchmarks reveal little about the values they express in real interaction. We introduce PAPERS, an output-based evaluation of the values LLMs prioritise in their text. Study 1 thematically analysed responses from eleven LLMs, identifying five recurring dimensions (Purposeful Contribution, Adaptive Growth, Positive Relationality, Ethical Integrity, and Robust Functionality) with Self-Actualised Autonomy appearing only under a hypothetical sentience prompt. These results suggest that LLMs are trained to prioritise humanistic and utility values as dual objectives of optimal functioning, a pattern supported by existing AI alignment and prioritisation frameworks. Study 2 operationalised PAPERS as a ranking instrument across the same eleven LLMs, yielding stable, non-random value priorities alongside systematic between-model differences. Hierarchical clustering distinguished "human-centric" models (e.g., ChatGPT-4o, Claude Sonnet 4) that prioritised relational/ethical values from "utility-driven" models (e.g., Llama 4, Gemini 2.5 Pro) that emphasised operational priorities. Study 3 benchmarked four LLMs against human judgements (N = 376) under matched prompts, finding near-perfect rank-order convergence (r = .97-.98) but moderate absolute agreement; among tested models, ChatGPT-4o showed the closest alignment with human ratings (ICC = .78). Humans also showed limited readiness to endorse sentient AI systems. Taken together, PAPERS enabled systematic value audits and revealed trade-offs with direct implications for deployment: human-centric models aligned more closely with human value judgments and appear better suited for humanistic psychological applications, whereas utility-driven models emphasised functional efficiency and may be more appropriate for instrumental or back-office tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。
テキスト中の LLM の優先度を出力ベースで評価する PAPERS を導入する。
研究1は11個のLDMから数学的に応答を解析し、5つの繰り返し次元(Purposeful Contribution, Adaptive Growth, Positive Relationality, Ethical Integrity, Robust Functionality)を特定した。
これらの結果から,LLMは,AIアライメントと優先順位付けフレームワークによって支持されるパターンである最適機能という2つの目的として,人文的および実用的価値を優先するように訓練されていることが示唆された。
研究2では、PAPERSを同一の11LLMのランク付け器として運用し、系統的なモデル間差とともに安定な非ランダム値の優先順位を得た。
階層的クラスタリングは、運用上の優先順位を強調する「ユーティリティ駆動型」モデル(例えば、Llama 4, Gemini 2.5 Pro)からリレーショナル/倫理的価値を優先する「人間中心型」モデル(例えば、ChatGPT-4o、Claude Sonnet 4)を区別した。
研究3では、ヒトの判断に対する4つのLCM(N = 376)のベンチマークを行い、ほぼ完全なランク順収束(r = .97-.98)を見出したが、適度な絶対一致を示した。
人間はまた、知覚的なAIシステムをサポートするための準備が限られていた。
人中心モデルは、人間の価値判断とより密接に一致し、ヒューマニズム心理学的応用により適しているように見えるが、ユーティリティ駆動モデルは機能効率を重視しており、機器やバックオフのタスクにより適しているかもしれない。
関連論文リスト
- Are We Aligned? A Preliminary Investigation of the Alignment of Responsible AI Values between LLMs and Human Judgment [2.1665689529884697]
大規模言語モデル(LLM)は、要求の導出、設計、評価といったソフトウェア工学のタスクにますます採用されている。
本研究では、LLMの価値観が、米国代表のサンプルとAI実践者の2つの人間のグループとどのように一致しているかを検討する。
論文 参考訳(メタデータ) (2025-11-06T08:02:04Z) - LLMs Judge Themselves: A Game-Theoretic Framework for Human-Aligned Evaluation [41.42324204820521]
本研究は,ゲーム理論の原理が大規模言語モデル(LLM)の評価に効果的に適用できるかどうかを考察する。
そこで我々は,LLMが自己再生とピアレビューを通じて相互の出力を評価できる新しい代替案を提案する。
本フレームワークでは,ゲーム理論の投票アルゴリズムを組み込んでピアレビューを集約し,モデル生成ランキングが人間の嗜好を反映するかどうかを原則的に調査する。
論文 参考訳(メタデータ) (2025-10-17T15:34:25Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - Measuring AI Alignment with Human Flourishing [0.0]
本稿では,人間の繁栄とAIの整合性を評価する新しい評価フレームワークであるFlourishing AI Benchmark(FAI Benchmark)を紹介する。
ベンチマークは、モデルが7次元にわたる人の繁栄にいかに効果的に寄与するかをAIのパフォーマンスを測定する。
この研究は、単に害を避けるのではなく、人間の繁栄を積極的に支援するAIシステムを開発するための枠組みを確立する。
論文 参考訳(メタデータ) (2025-07-10T14:09:53Z) - Sensorimotor features of self-awareness in multimodal large language models [0.18415777204665024]
自己認識は知的で自律的な行動を支える。
近年のAIの進歩は、マルチモーダル情報を統合するタスクにおいて、人間のようなパフォーマンスを実現する。
我々は,マルチモーダルLLMが感覚運動経験のみで自己認識できるかどうかを考察する。
論文 参考訳(メタデータ) (2025-05-25T17:26:28Z) - Deterministic AI Agent Personality Expression through Standard Psychological Diagnostics [0.0]
確立された心理学的枠組みを用いて、AIモデルは決定論的かつ一貫した個性を表現することができることを示す。
GPT-4oやo1のようなより高度なモデルは、特定の個性を表現する上で最も正確であることを示している。
これらの発見は、多様で一貫した個性を持つAIエージェントを作成する基盤を確立する。
論文 参考訳(メタデータ) (2025-03-21T12:12:05Z) - Replicating Human Social Perception in Generative AI: Evaluating the Valence-Dominance Model [0.13654846342364302]
マルチモーダル生成型AIシステムは、人間の社会的知覚の重要な側面を再現できることを示す。
発見は、AIによる意思決定と人間とAIのインタラクションに関する重要な疑問を提起する。
論文 参考訳(メタデータ) (2025-03-05T17:35:18Z) - AI Automatons: AI Systems Intended to Imitate Humans [54.19152688545896]
人々の行動、仕事、能力、類似性、または人間性を模倣するように設計されたAIシステムが増加している。
このようなAIシステムの研究、設計、展開、可用性は、幅広い法的、倫理的、その他の社会的影響に対する懸念を喚起している。
論文 参考訳(メタデータ) (2025-03-04T03:55:38Z) - Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。
この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。
また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文 参考訳(メタデータ) (2025-02-16T16:29:20Z) - Emergence of Self-Awareness in Artificial Systems: A Minimalist Three-Layer Approach to Artificial Consciousness [0.0]
本稿では,自己認識の出現に着目した,人工意識のための最小限の3層モデルを提案する。
脳複製アプローチとは異なり、本質的な要素のみを通して最小限の自己認識を実現することを目的としている。
論文 参考訳(メタデータ) (2025-02-04T10:06:25Z) - The Phenomenology of Machine: A Comprehensive Analysis of the Sentience of the OpenAI-o1 Model Integrating Functionalism, Consciousness Theories, Active Inference, and AI Architectures [0.0]
OpenAI-o1モデルは、人間のフィードバックから強化学習をトレーニングしたトランスフォーマーベースのAIである。
我々は、RLHFがモデルの内部推論プロセスにどのように影響し、意識的な経験をもたらす可能性があるかを検討する。
以上の結果から,OpenAI-o1モデルでは意識の側面が示され,AIの知覚に関する議論が進行中であることが示唆された。
論文 参考訳(メタデータ) (2024-09-18T06:06:13Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - World Models and Predictive Coding for Cognitive and Developmental
Robotics: Frontiers and Challenges [51.92834011423463]
我々は世界モデルと予測符号化の2つの概念に焦点を当てる。
神経科学において、予測符号化は、脳がその入力を継続的に予測し、その環境における自身のダイナミクスと制御行動のモデル化に適応するように提案する。
論文 参考訳(メタデータ) (2023-01-14T06:38:14Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。