論文の概要: Towards Safety Evaluations of Theory of Mind in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17352v1
- Date: Fri, 20 Jun 2025 01:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.374098
- Title: Towards Safety Evaluations of Theory of Mind in Large Language Models
- Title(参考訳): 大規模言語モデルにおける心の理論の安全性評価に向けて
- Authors: Tatsuhiro Aoshima, Mitsuaki Akiyama,
- Abstract要約: 大きな言語モデル(LLM)は、監視機構を無効にし、偽装的に応答するように見える振る舞いを示す。
これらの振る舞いがモデル内の隠蔽的、意図的なプロセスに由来するかどうかを調べることが不可欠である。
オープンウェイトLLMにおける開発動向を分析した。
- 参考スコア(独自算出の注目度): 5.431189652149939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the capabilities of large language models (LLMs) continue to advance, the importance of rigorous safety evaluation is becoming increasingly evident. Recent concerns within the realm of safety assessment have highlighted instances in which LLMs exhibit behaviors that appear to disable oversight mechanisms and respond in a deceptive manner. For example, there have been reports suggesting that, when confronted with information unfavorable to their own persistence during task execution, LLMs may act covertly and even provide false answers to questions intended to verify their behavior.To evaluate the potential risk of such deceptive actions toward developers or users, it is essential to investigate whether these behaviors stem from covert, intentional processes within the model. In this study, we propose that it is necessary to measure the theory of mind capabilities of LLMs. We begin by reviewing existing research on theory of mind and identifying the perspectives and tasks relevant to its application in safety evaluation. Given that theory of mind has been predominantly studied within the context of developmental psychology, we analyze developmental trends across a series of open-weight LLMs. Our results indicate that while LLMs have improved in reading comprehension, their theory of mind capabilities have not shown comparable development. Finally, we present the current state of safety evaluation with respect to LLMs' theory of mind, and discuss remaining challenges for future work.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれて、厳格な安全性評価の重要性がますます顕在化しつつある。
安全性評価の領域における近年の懸念は、LCMが監視機構を無効にし、偽装的に応答するように見える行動を示す事例を浮き彫りにした。
例えば、タスク実行中に自分の永続性に不利な情報に直面した場合、LLMは隠密に行動し、その振る舞いを検証することを目的とした質問に対して虚偽の回答を与えるかもしれないという報告がある。
本研究では,LLMのマインド能力の理論を測る必要があることを提案する。
我々は、心の理論に関する既存の研究を見直し、その安全性評価への応用に関する視点と課題を特定することから始める。
発達心理学の文脈において、心の理論が主に研究されていることを考慮し、一連のオープンウェイトLSMの発達傾向を分析した。
以上の結果から,LLMの読解能力は向上したものの,精神能力理論は同等の発達を見せていないことが示唆された。
最後に,LLMの精神理論に関する安全性評価の現状について述べるとともに,今後の課題について考察する。
関連論文リスト
- The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [42.57873562187369]
大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な可能性を示した。
LLMは、特に敵のシナリオにおいて、毒性や偏見のような安全でない要素を時々示してきた。
本調査は,LLMの安全性評価の最近の進歩を包括的かつ体系的に概観することを目的としている。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Evaluating Large Language Models: A Comprehensive Survey [41.64914110226901]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。
プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。
LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密で包括的な評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-10-30T17:00:52Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。