Fugu-MT 論文翻訳(概要): Towards Safety Evaluations of Theory of Mind in Large Language Models

論文の概要: Towards Safety Evaluations of Theory of Mind in Large Language Models

arxiv url: http://arxiv.org/abs/2506.17352v1
Date: Fri, 20 Jun 2025 01:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.374098
Title: Towards Safety Evaluations of Theory of Mind in Large Language Models
Title（参考訳）: 大規模言語モデルにおける心の理論の安全性評価に向けて
Authors: Tatsuhiro Aoshima, Mitsuaki Akiyama,
Abstract要約: 大きな言語モデル(LLM)は、監視機構を無効にし、偽装的に応答するように見える振る舞いを示す。これらの振る舞いがモデル内の隠蔽的、意図的なプロセスに由来するかどうかを調べることが不可欠である。オープンウェイトLLMにおける開発動向を分析した。
参考スコア（独自算出の注目度）: 5.431189652149939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the capabilities of large language models (LLMs) continue to advance, the importance of rigorous safety evaluation is becoming increasingly evident. Recent concerns within the realm of safety assessment have highlighted instances in which LLMs exhibit behaviors that appear to disable oversight mechanisms and respond in a deceptive manner. For example, there have been reports suggesting that, when confronted with information unfavorable to their own persistence during task execution, LLMs may act covertly and even provide false answers to questions intended to verify their behavior.To evaluate the potential risk of such deceptive actions toward developers or users, it is essential to investigate whether these behaviors stem from covert, intentional processes within the model. In this study, we propose that it is necessary to measure the theory of mind capabilities of LLMs. We begin by reviewing existing research on theory of mind and identifying the perspectives and tasks relevant to its application in safety evaluation. Given that theory of mind has been predominantly studied within the context of developmental psychology, we analyze developmental trends across a series of open-weight LLMs. Our results indicate that while LLMs have improved in reading comprehension, their theory of mind capabilities have not shown comparable development. Finally, we present the current state of safety evaluation with respect to LLMs' theory of mind, and discuss remaining challenges for future work.
Abstract（参考訳）: 大規模言語モデル(LLM)の能力が向上するにつれて、厳格な安全性評価の重要性がますます顕在化しつつある。安全性評価の領域における近年の懸念は、LCMが監視機構を無効にし、偽装的に応答するように見える行動を示す事例を浮き彫りにした。例えば、タスク実行中に自分の永続性に不利な情報に直面した場合、LLMは隠密に行動し、その振る舞いを検証することを目的とした質問に対して虚偽の回答を与えるかもしれないという報告がある。本研究では,LLMのマインド能力の理論を測る必要があることを提案する。我々は、心の理論に関する既存の研究を見直し、その安全性評価への応用に関する視点と課題を特定することから始める。発達心理学の文脈において、心の理論が主に研究されていることを考慮し、一連のオープンウェイトLSMの発達傾向を分析した。以上の結果から,LLMの読解能力は向上したものの,精神能力理論は同等の発達を見せていないことが示唆された。最後に,LLMの精神理論に関する安全性評価の現状について述べるとともに,今後の課題について考察する。

関連論文リスト

The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [42.57873562187369]
大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な可能性を示した。 LLMは、特に敵のシナリオにおいて、毒性や偏見のような安全でない要素を時々示してきた。本調査は,LLMの安全性評価の最近の進歩を包括的かつ体系的に概観することを目的としている。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning [40.55486479495965]
大規模言語モデル (LLM) は様々なNLPベンチマークで顕著な成功を収めている。本研究では,LLMにおける推論と安全性の相互作用について検討する。推論能力が向上し、これまで見過ごされていた脆弱性に光を当てることによって生じる、潜伏する安全性のリスクを強調します。
論文参考訳（メタデータ） (2025-02-13T06:37:28Z)
Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文参考訳（メタデータ） (2025-01-27T21:26:37Z)
Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文参考訳（メタデータ） (2024-06-16T22:04:10Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Evaluating Large Language Models: A Comprehensive Survey [41.64914110226901]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。 LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密で包括的な評価を行うことが不可欠である。
論文参考訳（メタデータ） (2023-10-30T17:00:52Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。