論文の概要: Framing Matters: Addressing Framing Sensitivity in Decision-Making through Behaviorally-Grounded Value Alignment
- arxiv url: http://arxiv.org/abs/2605.28188v1
- Date: Wed, 27 May 2026 09:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.921177
- Title: Framing Matters: Addressing Framing Sensitivity in Decision-Making through Behaviorally-Grounded Value Alignment
- Title(参考訳): 分別事項: 行動中心の値アライメントによる意思決定における分別感度の対応
- Authors: Seojin Hwang, Minju Kim, Junhyuk Choi, JeongHyun Park, Hwanhee Lee,
- Abstract要約: 事実保存型だが異なるフレーム型入力は大規模言語モデル(LLM)を著しく不安定にすることができる。
実験の結果, LLMのフレーミングに対する感受性は高く, 平均フリップ率は28.6%であった。
そこで我々は,これらのフレーミング次元を明示的に対象とする表現レベル手法であるValignを提案し,決定を事前に安定な値に固定する。
- 参考スコア(独自算出の注目度): 17.955427598234866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in high-stakes decision-making settings such as legal reasoning, where consistency under factually equivalent inputs is critical. However, we find that fact-preserved but differently framed inputs can significantly destabilize LLM decisions. To systematically investigate this problem, we introduce Fragile, a large-scale benchmark that isolates fact-preserving semantic framing across three controlled dimensions: value-tinted narration, temporal slice, and narrative vividness. Our experiments reveal a high susceptibility of LLMs to framing, with an average decision flip rate of 28.6%. We find that simple prior prompt-level and activation-level interventions not only fail to suppress framing sensitivity but actively amplify it. We therefore propose Valign, a representation-level method that explicitly targets these framing dimensions by anchoring decisions to a stable value prior, steering hidden states toward the model's value-consistent direction, and projecting out temporal-vividness-sensitive directions from the model's hidden states. Valign consistently reduces framing-induced decision flips, demonstrating that robust mitigation requires directly targeting the internal pathways in which framing operates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、法的な推論のような、現実的に等価な入力下での一貫性が不可欠である高い意思決定設定に、ますます多くデプロイされている。
しかし、事実保存と異なるフレームの入力はLLM決定を著しく不安定にすることができる。
この問題を体系的に研究するために、我々は、価値付きナレーション、時間的スライス、物語の鮮明さという3つの制御された次元にわたる事実保存セマンティックフレーミングを分離する大規模なベンチマークであるFragileを紹介した。
実験の結果, LLMのフレーミングに対する感受性は高く, 平均フリップ率は28.6%であった。
簡単な事前のプロンプトレベルとアクティベーションレベルの介入は、フレーミング感度を抑えるだけでなく、積極的に増幅する。
そこで我々は,これらのフレーミング次元を,決定を事前の安定な値に固定し,隠れた状態をモデルの値一貫性のある方向に向けて操り,そのモデルが隠された状態から時間的生存感に敏感な方向を投影することによって,明示的にターゲットとする表現レベルであるValignを提案する。
Valignはフレーミングによって引き起こされる決定のフリップを一貫して減少させ、堅牢な緩和にはフレーミングが動作する内部経路を直接的に標的にする必要があることを実証する。
関連論文リスト
- Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - The Paradox of Robustness: Decoupling Rule-Based Logic from Affective Noise in High-Stakes Decision-Making [1.0671844383558033]
大規模言語モデル(LLM)は、小さな急激な摂動に敏感であり、ユーザのバイアスとサイコファン的アライメントの傾向が広く文書化されている。
LLMは人体よりも110~300倍の抵抗性を示すロバスト性ギャップを定量化する。
LLMはクエリのフォーマットの“脆弱”な場合もありますが,決定にバイアスがかかる理由に対して,非常に“安定”しているのです。
論文 参考訳(メタデータ) (2026-01-29T09:17:05Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - Semantic Misalignment in Vision-Language Models under Perceptual Degradation [2.9140696506330723]
視覚知覚の制御下において視覚言語モデル(VLM)における意味的ミスアライメントについて検討する。
ダウンストリームVLMの動作に深刻な障害がみられ, 幻覚的対象の言及, 安全クリティカルな実体の欠落, 不整合性判定などが観察された。
以上の結果から,画素レベルのロバスト性とマルチモーダルなセマンティックな信頼性との明確な不一致が明らかとなり,現在のVLMシステムにとって重要な限界が浮き彫りになった。
論文 参考訳(メタデータ) (2026-01-13T09:13:05Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment? [73.80382983108997]
表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
論文 参考訳(メタデータ) (2025-05-24T12:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。