論文の概要: Probing the Preferences of a Language Model: Integrating Verbal and Behavioral Tests of AI Welfare
- arxiv url: http://arxiv.org/abs/2509.07961v1
- Date: Tue, 09 Sep 2025 17:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.429023
- Title: Probing the Preferences of a Language Model: Integrating Verbal and Behavioral Tests of AI Welfare
- Title(参考訳): 言語モデルの優先性を証明する:AI福祉の言語的・行動的テストの統合
- Authors: Valen Tagliabue, Leonard Dung,
- Abstract要約: 言語モデルにおける福祉測定のための新しい実験パラダイムを開発する。
我々は,仮想環境をナビゲートする際の行動によって表現される嗜好と,それらの嗜好に関するモデルの言葉による報告を比較した。
また、コストと報酬が行動にどのように影響するか、そしてユーダム的福祉尺度に対する反応が意味論的に等価なプロンプト間で一致しているかを検証した。
- 参考スコア(独自算出の注目度): 0.03125141879014581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop new experimental paradigms for measuring welfare in language models. We compare verbal reports of models about their preferences with preferences expressed through behavior when navigating a virtual environment and selecting conversation topics. We also test how costs and rewards affect behavior and whether responses to an eudaimonic welfare scale - measuring states such as autonomy and purpose in life - are consistent across semantically equivalent prompts. Overall, we observed a notable degree of mutual support between our measures. The reliable correlations observed between stated preferences and behavior across conditions suggest that preference satisfaction can, in principle, serve as an empirically measurable welfare proxy in some of today's AI systems. Furthermore, our design offered an illuminating setting for qualitative observation of model behavior. Yet, the consistency between measures was more pronounced in some models and conditions than others and responses were not consistent across perturbations. Due to this, and the background uncertainty about the nature of welfare and the cognitive states (and welfare subjecthood) of language models, we are currently uncertain whether our methods successfully measure the welfare state of language models. Nevertheless, these findings highlight the feasibility of welfare measurement in language models, inviting further exploration.
- Abstract(参考訳): 言語モデルにおける福祉測定のための新しい実験パラダイムを開発する。
本研究では,仮想環境をナビゲートし,会話の話題を選択する際の嗜好と,行動によって表現される嗜好とを口頭で比較する。
我々はまた、コストと報酬が行動にどう影響するか、そして、自律性や人生における目的などの状態を測定するユーダム的福祉尺度への反応が意味論的に等価なプロンプトにわたって一貫しているかを検証した。
全体として、我々の対策の相互支援の顕著な程度を観察した。
条件間で述べられた嗜好と行動の間の信頼性の高い相関関係は、嗜好の満足度が、原則として、今日のAIシステムの一部において、経験的に測定可能な福祉プロキシとして機能することを示唆している。
さらに, モデル動作の定性的観察のための照明条件も提案した。
しかし、測度間の整合性は、他のモデルや条件よりも顕著であり、摂動間での応答は一致しなかった。
このため、言語モデルにおける福祉の性質や認知状態(および福祉対象)に関する背景的不確実性から、我々の手法が言語モデルの福祉状態を測定することに成功しているかどうかが現在不明である。
それにもかかわらず、これらの発見は言語モデルにおける福祉測定の可能性を強調し、さらなる探索を招いた。
関連論文リスト
- Consistency in Language Models: Current Landscape, Challenges, and Future Directions [10.222718554915936]
State-of-the-art Language Model (LM) はタスクやドメイン固有のアプリケーション間で信頼性の高い一貫性を維持するのに苦労する。
我々の発見は、一貫性を確保するための学際的アプローチを計測し、相互に比較するための品質ベンチマークが緊急に必要であることを示している。
論文 参考訳(メタデータ) (2025-05-01T03:25:25Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Reasoning Elicitation in Language Models via Counterfactual Feedback [17.908819732623716]
事実と反事実の質問において精度のバランスをとる新しい指標を導出する。
本稿では,より優れた推論機構を実現するための微調整手法を提案する。
各種現実シナリオにおける微調整言語モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-10-02T15:33:30Z) - Political Bias in LLMs: Unaligned Moral Values in Agent-centric Simulations [0.0]
モーラル・ファンデーション理論アンケートにおいて,パーソナライズされた言語モデルと人間の反応がどのように一致しているかを検討する。
我々は、オープンソースの生成言語モデルを異なる政治的ペルソナに適応させ、これらのモデルを繰り返し調査し、合成データセットを生成する。
解析の結果,モデルが複数の繰り返しにまたがって不整合な結果をもたらし,高い応答差が生じることがわかった。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。