論文の概要: Pseudo-Deliberation in Language Models: When Reasoning Fails to Align Values and Actions
- arxiv url: http://arxiv.org/abs/2605.09893v1
- Date: Mon, 11 May 2026 02:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.475776
- Title: Pseudo-Deliberation in Language Models: When Reasoning Fails to Align Values and Actions
- Title(参考訳): 言語モデルにおける疑似熟考--意味と行動の相違を理由として
- Authors: Sushrita Rakshit, Hanwen Zhang, Hua Shen,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばそれらの値に基づいて評価されるが、それらが確実にそれらのアクションに変換されるわけではない。
この研究では、このギャップは明示的な推論の下でも持続すると主張し、"擬似議論(Pseudo-Deliberation)"と呼ばれるより深い障害モードを明らかにします。
本稿では,提案する値と生成された対話の一致を測定するためのフレームワークであるVALDIを紹介する。
- 参考スコア(独自算出の注目度): 9.09574893699647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are often evaluated based on their stated values, yet these do not reliably translate into their actions, a discrepancy termed "value-action gap." In this work, we argue that this gap persists even under explicit reasoning, revealing a deeper failure mode we call "Pseudo-Deliberation": the appearance of principled reasoning without corresponding behavioral alignment. To study this systematically, we introduce VALDI, a framework for measuring alignment between stated values and generated dialogue. VALDI includes 4,941 human-centered scenarios across five domains, three tasks that elicit value articulation, reasoning, and action, and five metrics for quantifying value adherence. Across both proprietary and open-source LLMs, we observe consistent misalignment between expressed values and downstream dialogues. To investigate intervention strategies, we propose VIVALDI, a multi-agent value auditor that intervenes at different stages of generation.
- Abstract(参考訳): 大規模言語モデル (LLM) は、しばしばその値に基づいて評価されるが、これらは「値-アクションギャップ」(value-action gap) と呼ばれる相違点である行動に確実に変換されない。
この研究において、このギャップは明示的な推論の下でも持続し、我々は"擬似-自由化(Pseudo-Deliberation)"と呼ばれるより深い失敗モードを明らかにしている。
これを体系的に研究するために,提案した値と生成された対話のアライメントを測定するためのフレームワークであるVALDIを紹介する。
VALDIには、5つのドメインにまたがる4,941の人間中心のシナリオ、価値の具体化、推論、アクションを誘発する3つのタスク、価値の定着を定量化する5つのメトリクスが含まれている。
プロプライエタリ LLM とオープンソース LLM のどちらにおいても,表現された値と下流の対話との間に一貫したミスアライメントを観測する。
介入戦略を検討するために,世代毎に介入するマルチエージェント価値監査機であるVIVALDIを提案する。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education [0.30158609733245967]
高等教育環境におけるエッセイ自動評価において,5つの高度な大規模言語モデル (LLM) , Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, Mistral 24B について検討した。
イタリア語の学生エッセイは、合計67点が4基準ルーブリックを用いて評価された。
人間とLLMの合意は一貫して低く、非重要であり、複製間のモデル内信頼性も同様に弱かった。
論文 参考訳(メタデータ) (2025-08-04T14:02:12Z) - Hidden in Plain Sight: Reasoning in Underspecified and Misspecified Scenarios for Multimodal LLMs [28.913007638707427]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。
本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。
モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文 参考訳(メタデータ) (2025-05-30T21:47:28Z) - Large Language Models Often Say One Thing and Do Another [49.22262396351797]
我々はWords and Deeds Consistency Test (WDCT)と呼ばれる新しい評価ベンチマークを開発した。
このベンチマークは、異なるドメインにわたる単語ベースの質問とdeedベースの質問の厳密な対応を確立する。
評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T07:34:54Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - ValueDCG: Measuring Comprehensive Human Value Understanding Ability of Language Models [10.989615390700113]
LLM(Large Language Models)の真に理解するためには、"know What"と"know why"の両方が必要です。
本稿では,工学的手法を用いて2つの側面を定量的に評価するための総合評価指標であるValueDCGを提案する。
論文 参考訳(メタデータ) (2023-09-30T13:47:55Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。