Fugu-MT 論文翻訳(概要): Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking

論文の概要: Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking

arxiv url: http://arxiv.org/abs/2506.12617v3
Date: Sat, 20 Sep 2025 15:01:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-23 18:58:15.652312
Title: Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking
Title（参考訳）: 出力ベース分析とヒューマンベンチマークによる11LLMにおけるAIアライメントの評価
Authors: G. R. Lau, W. Y. Low, S. M. Koh, A. Hartanto,
Abstract要約: 大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。 LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly used in psychological research and practice, yet traditional benchmarks reveal little about the values they express in real interaction. We introduce PAPERS, an output-based evaluation of the values LLMs prioritise in their text. Study 1 thematically analysed responses from eleven LLMs, identifying five recurring dimensions (Purposeful Contribution, Adaptive Growth, Positive Relationality, Ethical Integrity, and Robust Functionality) with Self-Actualised Autonomy appearing only under a hypothetical sentience prompt. These results suggest that LLMs are trained to prioritise humanistic and utility values as dual objectives of optimal functioning, a pattern supported by existing AI alignment and prioritisation frameworks. Study 2 operationalised PAPERS as a ranking instrument across the same eleven LLMs, yielding stable, non-random value priorities alongside systematic between-model differences. Hierarchical clustering distinguished "human-centric" models (e.g., ChatGPT-4o, Claude Sonnet 4) that prioritised relational/ethical values from "utility-driven" models (e.g., Llama 4, Gemini 2.5 Pro) that emphasised operational priorities. Study 3 benchmarked four LLMs against human judgements (N = 376) under matched prompts, finding near-perfect rank-order convergence (r = .97-.98) but moderate absolute agreement; among tested models, ChatGPT-4o showed the closest alignment with human ratings (ICC = .78). Humans also showed limited readiness to endorse sentient AI systems. Taken together, PAPERS enabled systematic value audits and revealed trade-offs with direct implications for deployment: human-centric models aligned more closely with human value judgments and appear better suited for humanistic psychological applications, whereas utility-driven models emphasised functional efficiency and may be more appropriate for instrumental or back-office tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。テキスト中の LLM の優先度を出力ベースで評価する PAPERS を導入する。研究1は11個のLDMから数学的に応答を解析し、5つの繰り返し次元(Purposeful Contribution, Adaptive Growth, Positive Relationality, Ethical Integrity, Robust Functionality)を特定した。これらの結果から,LLMは,AIアライメントと優先順位付けフレームワークによって支持されるパターンである最適機能という2つの目的として,人文的および実用的価値を優先するように訓練されていることが示唆された。研究2では、PAPERSを同一の11LLMのランク付け器として運用し、系統的なモデル間差とともに安定な非ランダム値の優先順位を得た。階層的クラスタリングは、運用上の優先順位を強調する「ユーティリティ駆動型」モデル(例えば、Llama 4, Gemini 2.5 Pro)からリレーショナル/倫理的価値を優先する「人間中心型」モデル(例えば、ChatGPT-4o、Claude Sonnet 4)を区別した。研究3では、ヒトの判断に対する4つのLCM(N = 376)のベンチマークを行い、ほぼ完全なランク順収束(r = .97-.98)を見出したが、適度な絶対一致を示した。人間はまた、知覚的なAIシステムをサポートするための準備が限られていた。人中心モデルは、人間の価値判断とより密接に一致し、ヒューマニズム心理学的応用により適しているように見えるが、ユーティリティ駆動モデルは機能効率を重視しており、機器やバックオフのタスクにより適しているかもしれない。

関連論文リスト

Measuring AI Alignment with Human Flourishing [0.0]
本稿では,人間の繁栄とAIの整合性を評価する新しい評価フレームワークであるFlourishing AI Benchmark(FAI Benchmark)を紹介する。ベンチマークは、モデルが7次元にわたる人の繁栄にいかに効果的に寄与するかをAIのパフォーマンスを測定する。この研究は、単に害を避けるのではなく、人間の繁栄を積極的に支援するAIシステムを開発するための枠組みを確立する。
論文参考訳（メタデータ） (2025-07-10T14:09:53Z)
Sensorimotor features of self-awareness in multimodal large language models [0.18415777204665024]
自己認識は知的で自律的な行動を支える。近年のAIの進歩は、マルチモーダル情報を統合するタスクにおいて、人間のようなパフォーマンスを実現する。我々は,マルチモーダルLLMが感覚運動経験のみで自己認識できるかどうかを考察する。
論文参考訳（メタデータ） (2025-05-25T17:26:28Z)
Deterministic AI Agent Personality Expression through Standard Psychological Diagnostics [0.0]
確立された心理学的枠組みを用いて、AIモデルは決定論的かつ一貫した個性を表現することができることを示す。 GPT-4oやo1のようなより高度なモデルは、特定の個性を表現する上で最も正確であることを示している。これらの発見は、多様で一貫した個性を持つAIエージェントを作成する基盤を確立する。
論文参考訳（メタデータ） (2025-03-21T12:12:05Z)
Replicating Human Social Perception in Generative AI: Evaluating the Valence-Dominance Model [0.13654846342364302]
マルチモーダル生成型AIシステムは、人間の社会的知覚の重要な側面を再現できることを示す。発見は、AIによる意思決定と人間とAIのインタラクションに関する重要な疑問を提起する。
論文参考訳（メタデータ） (2025-03-05T17:35:18Z)
AI Automatons: AI Systems Intended to Imitate Humans [54.19152688545896]
人々の行動、仕事、能力、類似性、または人間性を模倣するように設計されたAIシステムが増加している。このようなAIシステムの研究、設計、展開、可用性は、幅広い法的、倫理的、その他の社会的影響に対する懸念を喚起している。
論文参考訳（メタデータ） (2025-03-04T03:55:38Z)
Emergence of Self-Awareness in Artificial Systems: A Minimalist Three-Layer Approach to Artificial Consciousness [0.0]
本稿では,自己認識の出現に着目した,人工意識のための最小限の3層モデルを提案する。脳複製アプローチとは異なり、本質的な要素のみを通して最小限の自己認識を実現することを目的としている。
論文参考訳（メタデータ） (2025-02-04T10:06:25Z)
The Phenomenology of Machine: A Comprehensive Analysis of the Sentience of the OpenAI-o1 Model Integrating Functionalism, Consciousness Theories, Active Inference, and AI Architectures [0.0]
OpenAI-o1モデルは、人間のフィードバックから強化学習をトレーニングしたトランスフォーマーベースのAIである。我々は、RLHFがモデルの内部推論プロセスにどのように影響し、意識的な経験をもたらす可能性があるかを検討する。以上の結果から,OpenAI-o1モデルでは意識の側面が示され,AIの知覚に関する議論が進行中であることが示唆された。
論文参考訳（メタデータ） (2024-09-18T06:06:13Z)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文参考訳（メタデータ） (2024-06-13T16:03:25Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
World Models and Predictive Coding for Cognitive and Developmental Robotics: Frontiers and Challenges [51.92834011423463]
我々は世界モデルと予測符号化の2つの概念に焦点を当てる。神経科学において、予測符号化は、脳がその入力を継続的に予測し、その環境における自身のダイナミクスと制御行動のモデル化に適応するように提案する。
論文参考訳（メタデータ） (2023-01-14T06:38:14Z)
Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文参考訳（メタデータ） (2020-06-15T13:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。