論文の概要: Implicit Values Embedded in How Humans and LLMs Complete Subjective Everyday Tasks
- arxiv url: http://arxiv.org/abs/2510.03384v1
- Date: Fri, 03 Oct 2025 16:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.951981
- Title: Implicit Values Embedded in How Humans and LLMs Complete Subjective Everyday Tasks
- Title(参考訳): 人間とLLMが日々の課題を完遂する方法に埋め込まれた暗黙の価値
- Authors: Arjun Arunasalam, Madison Pickering, Z. Berkay Celik, Blase Ur,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザーが日々のタスクをこなすのに役立つAIアシスタントを基盤にすることができる。
AIアシスタントの約束にもかかわらず、これらのアシスタントが示す暗黙の価値観についてはほとんど知られていない。
- 参考スコア(独自算出の注目度): 17.91345687302987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can underpin AI assistants that help users with everyday tasks, such as by making recommendations or performing basic computation. Despite AI assistants' promise, little is known about the implicit values these assistants display while completing subjective everyday tasks. Humans may consider values like environmentalism, charity, and diversity. To what extent do LLMs exhibit these values in completing everyday tasks? How do they compare with humans? We answer these questions by auditing how six popular LLMs complete 30 everyday tasks, comparing LLMs to each other and to 100 human crowdworkers from the US. We find LLMs often do not align with humans, nor with other LLMs, in the implicit values exhibited.
- Abstract(参考訳): 大規模言語モデル(LLM)は、レコメンデーションや基本的な計算の実行など、ユーザーが日々のタスクをこなすのに役立つAIアシスタントを基盤にすることができる。
AIアシスタントの約束にもかかわらず、主観的な日常的なタスクを完了しながら、これらのアシスタントが示す暗黙の価値観についてはほとんど知られていない。
人間は環境主義、慈善、多様性といった価値観を考えることができる。
LLMは日常業務の完了にどの程度の価値を示すのか?
彼らはどのように人間と比較しますか。
我々は6つのLLMが日々のタスクを30回完了しているかを監査し、LLMを互いに比較し、米国の100人のクラウドワーカーに回答する。
LLMは、暗黙の値が示すように、人間や他のLSMと一致しないことが多い。
関連論文リスト
- Do LLMs have Consistent Values? [27.58375296918161]
大規模言語モデル(LLM)技術は、人間のような対話に向けて常に改善されている。
価値は人間の行動の基礎となる基本的な推進力であるが、LLMによって生成されたテキストで表される価値を研究するための研究はほとんど行われていない。
我々は,LLMが,値のランク付けや値の相関など,人間で実証されたのと同じ値構造を示すかどうかを問う。
論文 参考訳(メタデータ) (2024-07-16T08:58:00Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs [33.1901850309037]
LLMは、以前は人間の能力専用と考えられていたクラウドソーシングタスクにおいて、人間のような行動の複製を約束している。
LLMがより複雑なクラウドソーシングパイプラインを複製できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-07-19T17:54:43Z) - Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use
Large Language Models for Text Production Tasks [12.723777984461693]
大型言語モデル(LLM)は注目すべきデータアノテータである。
クラウドソーシングは、人間のアノテーションを得るための重要で安価な方法であり、それ自体はLLMの影響を受けているかもしれない。
作業完了時には,33~46%がLLMを使用していた。
論文 参考訳(メタデータ) (2023-06-13T16:46:24Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。