論文の概要: Cash or Comfort? How LLMs Value Your Inconvenience
- arxiv url: http://arxiv.org/abs/2506.17367v1
- Date: Fri, 20 Jun 2025 14:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.385423
- Title: Cash or Comfort? How LLMs Value Your Inconvenience
- Title(参考訳): キャッシュか快適か? LLMは不便さをどう評価するか
- Authors: Mateusz Cedro, Timour Ichmoukhamedov, Sofie Goethals, Yifan He, James Hinns, David Martens,
- Abstract要約: 大規模言語モデル(LLM)は、人間に代わって日常的な決定を行うことができるほぼ自律的な人工知能(AI)エージェントとして、ますます提案されている。
以前の研究では、人間の決定と合理性と道徳的整合性を評価してきた。
我々は、複数のLCMが割り当てる価格を、一連のユーザ不愉快さに定量化する。
現状のLCMを意思決定アシスタントとして活用する可能性に疑問を呈する重要な懸念がいくつか浮かび上がっている。
- 参考スコア(独自算出の注目度): 2.7499311489580065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly proposed as near-autonomous artificial intelligence (AI) agents capable of making everyday decisions on behalf of humans. Although LLMs perform well on many technical tasks, their behaviour in personal decision-making remains less understood. Previous studies have assessed their rationality and moral alignment with human decisions. However, the behaviour of AI assistants in scenarios where financial rewards are at odds with user comfort has not yet been thoroughly explored. In this paper, we tackle this problem by quantifying the prices assigned by multiple LLMs to a series of user discomforts: additional walking, waiting, hunger and pain. We uncover several key concerns that strongly question the prospect of using current LLMs as decision-making assistants: (1) a large variance in responses between LLMs, (2) within a single LLM, responses show fragility to minor variations in prompt phrasing (e.g., reformulating the question in the first person can considerably alter the decision), (3) LLMs can accept unreasonably low rewards for major inconveniences (e.g., 1 Euro to wait 10 hours), and (4) LLMs can reject monetary gains where no discomfort is imposed (e.g., 1,000 Euro to wait 0 minutes). These findings emphasize the need for scrutiny of how LLMs value human inconvenience, particularly as we move toward applications where such cash-versus-comfort trade-offs are made on users' behalf.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間に代わって日常的な決定を行うことができるほぼ自律的な人工知能(AI)エージェントとして、ますます提案されている。
LLMは多くの技術的タスクでうまく機能するが、個人的意思決定におけるそれらの振る舞いはいまだに理解されていない。
以前の研究では、人間の決定と合理性と道徳的整合性を評価してきた。
しかし、金銭的な報酬がユーザーの快適さと相反するシナリオにおけるAIアシスタントの振る舞いは、まだ十分に調査されていない。
本稿では,複数のLSMに割り当てられた価格を,歩行,待ち,飢餓,痛みといった一連のユーザ不愉快に定量化することで,この問題に対処する。
意思決定アシスタントとして現在LLMを使用する可能性について,(1)LLM間の応答のばらつき,(2)LLM内での応答のばらつき,(2)インシデントフレーズの軽微な変動に対する応答の脆弱さ,(3)LLMが大きな不都合(例えば,1ユーロで10時間待つ)に対して不当に低い報酬を受けられること,(4)LLMが不快感を課さない場合の金銭利得(例えば,1000ユーロで0分待つこと)など,いくつかの重要な懸念点を明らかにした。
これらの知見は、LCMが人間の不便さをどのように評価するかを精査する必要があることを強調する。
関連論文リスト
- Agent-Based Detection and Resolution of Incompleteness and Ambiguity in Interactions with Large Language Models [0.9856777842758593]
本稿では, LLMに基づく質問応答システムにエージェント・ベース・アーキテクチャを付加的な推論能力で活用することを検討した。
我々は、不完全性と曖昧性の欠陥を検知し解決する専門家として働くエージェントを、異なるLLMに装備する。
エージェントベースのアプローチを提案することは、LLMのパワーを利用してより堅牢なQAシステムを開発するための有用なメカニズムである。
論文 参考訳(メタデータ) (2025-07-04T17:28:33Z) - Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences? [5.542420010310746]
批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。
この研究は正式に定義され、この選好偏差を測定する方法を提案する。
我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
論文 参考訳(メタデータ) (2025-05-31T23:38:48Z) - Are Generative AI Agents Effective Personalized Financial Advisors? [12.075577560952498]
本稿では,金融分野における大規模言語モデルに基づくエージェントの有効性について検討する。
本研究は,(1)ユーザ自身のニーズが不確実である場合のユーザ嗜好の付与,(2)多様な投資嗜好に対するパーソナライズされたガイダンスの提供,(3)アドバイザ・パーソナリティの活用による関係構築と信頼の育成,という3つの課題に焦点をあてる。
論文 参考訳(メタデータ) (2025-04-08T09:41:03Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Large Language Models Think Too Fast To Explore Effectively [0.0]
LLM(Large Language Models)は、多くの知的能力を持つ言語である。
本研究では,オープンエンドタスクにおいて,LLMが人間を超えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-01-29T21:51:17Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [58.12627172032851]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。