Fugu-MT 論文翻訳(概要): Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

論文の概要: Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

arxiv url: http://arxiv.org/abs/2501.15463v1
Date: Sun, 26 Jan 2025 09:33:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.694791
Title: Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?
Title（参考訳）: バリュー・アクション・ギャップを意識する: LLMは価値に合わせて行動するのか?
Authors: Hua Shen, Nicholas Clark, Tanushree Mitra,
Abstract要約: バリュー・アクション・ギャップ(Value-Action Gap)は、現実の文脈における個人の価値観と行動の相違を明らかにする。本研究では,LLMの値と値インフォームドアクションのアライメントを評価するための評価フレームワークであるValueActionLensを紹介する。
参考スコア（独自算出の注目度）: 13.848674226159169
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing research primarily evaluates the values of LLMs by examining their stated inclinations towards specific values. However, the "Value-Action Gap," a phenomenon rooted in environmental and social psychology, reveals discrepancies between individuals' stated values and their actions in real-world contexts. To what extent do LLMs exhibit a similar gap between their stated values and their actions informed by those values? This study introduces ValueActionLens, an evaluation framework to assess the alignment between LLMs' stated values and their value-informed actions. The framework encompasses the generation of a dataset comprising 14.8k value-informed actions across twelve cultures and eleven social topics, and two tasks to evaluate how well LLMs' stated value inclinations and value-informed actions align across three different alignment measures. Extensive experiments reveal that the alignment between LLMs' stated values and actions is sub-optimal, varying significantly across scenarios and models. Analysis of misaligned results identifies potential harms from certain value-action gaps. To predict the value-action gaps, we also uncover that leveraging reasoned explanations improves performance. These findings underscore the risks of relying solely on the LLMs' stated values to predict their behaviors and emphasize the importance of context-aware evaluations of LLM values and value-action gaps.
Abstract（参考訳）: 既存の研究は, LLM の価値を, 特定の値への傾きを調べることによって評価している。しかし、環境心理学や社会心理学に根ざした「バリュー・アクション・ギャップ」は、実際の文脈における個人の価値観と行動の相違を明らかにしている。 LLMはどの程度において、それらの値とそれらの値によって通知される行動との間に類似したギャップを示していますか? 本研究では,LLMの値と値インフォームドアクションのアライメントを評価するための評価フレームワークであるValueActionLensを紹介する。このフレームワークは、12の文化と11の社会トピックにまたがる14.8kの値インフォームドアクションからなるデータセットの生成と、LCMの宣言された値インクリエーションと価値インフォームドアクションが3つの異なるアライメント尺度でどの程度うまく一致しているかを評価するための2つのタスクを含む。大規模な実験では、LLMの値とアクションのアライメントが準最適であることが示され、シナリオやモデルによって大きく異なる。一致しない結果の分析は、ある値-作用ギャップから潜在的な害を識別する。価値-作用ギャップを予測するために、推論された説明を活用することで性能が向上することを明らかにする。これらの知見は, LLMの値にのみ依存して行動を予測することのリスクを強調し, LLMの値と値-作用ギャップの文脈認識評価の重要性を強調した。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference [43.168803869385066]
AdAEMは、LSMの傾きを明らかにするための、新しい、自己拡張可能なアセスメントフレームワークである。テストの質問を自動的に、適応的に生成し、拡張することができます。シュワルツ値理論に基づく12,310の質問を生成し,提案手法の有効性と有効性を示す分析を行い,16 LLMの値をベンチマークする。
論文参考訳（メタデータ） (2025-05-18T09:15:26Z)
Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs [2.761261381839981]
本研究では,大規模言語モデルにおける国家社会価値の行動駆動メカニズムを探求する,ValueExplorationという新しいフレームワークを提案する。まず,中国社会価値を大言語モデルで符号化するニューロンを同定し,同定する。これらのニューロンを不活性化することにより、モデル行動の変化を分析し、LLM決定に影響を及ぼす内部メカニズムを明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:23:59Z)
Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。既存のベンチマークはデータ汚染の傾向があります。個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文参考訳（メタデータ） (2025-01-13T05:53:56Z)
Do LLMs have Consistent Values? [27.58375296918161]
大規模言語モデル(LLM)技術は、人間のような対話に向けて常に改善されている。価値は人間の行動の基礎となる基本的な推進力であるが、LLMによって生成されたテキストで表される価値を研究するための研究はほとんど行われていない。我々は,LLMが,値のランク付けや値の相関など,人間で実証されたのと同じ値構造を示すかどうかを問う。
論文参考訳（メタデータ） (2024-07-16T08:58:00Z)
CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。 ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文参考訳（メタデータ） (2024-07-15T13:51:37Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T09:44:51Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
ValueDCG: Measuring Comprehensive Human Value Understanding Ability of Language Models [10.989615390700113]
LLM(Large Language Models)の真に理解するためには、"know What"と"know why"の両方が必要です。本稿では,工学的手法を用いて2つの側面を定量的に評価するための総合評価指標であるValueDCGを提案する。
論文参考訳（メタデータ） (2023-09-30T13:47:55Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文参考訳（メタデータ） (2023-05-26T02:34:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。