論文の概要: Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models
- arxiv url: http://arxiv.org/abs/2503.01332v2
- Date: Tue, 30 Sep 2025 05:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.925846
- Title: Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models
- Title(参考訳): 言語モデルにおけるリスク意識決定の検討
- Authors: Cheng-Kuang Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, Hung-yi Lee,
- Abstract要約: 言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
- 参考スコア(独自算出の注目度): 63.559461750135334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models (LMs) are increasingly used to build agents that can act autonomously to achieve goals. During this automatic process, agents need to take a series of actions, some of which might lead to severe consequences if incorrect actions are taken. Therefore, such agents must sometimes defer-refusing to act when their confidence is insufficient-to avoid the potential cost of incorrect actions. Because the severity of consequences varies across applications, the tendency to defer should also vary: in low-risk settings agents should answer more freely, while in high-risk settings their decisions should be more conservative. We study this "answer-or-defer" problem with an evaluation framework that systematically varies human-specified risk structures-rewards and penalties for correct answers, incorrect answers, and refusals $(r_{\mathrm{cor}},r_{\mathrm{inc}}, r_{\mathrm{ref}})$-while keeping tasks fixed. This design evaluates LMs' risk-aware decision policies by measuring their ability to maximize expected reward. Across multiple datasets and models, we identify flaws in their decision policies: LMs tend to over-answer in high-risk settings and over-defer in low-risk settings. After analyzing the potential cause of such flaws, we find that a simple skill-decomposition method, which isolates the independent skills required for answer-or-defer decision making, can consistently improve LMs' decision policies. Our results highlight the current limitations of LMs in risk-conditioned decision making and provide practical guidance for deploying more reliable LM-based agents across applications of varying risk levels.
- Abstract(参考訳): 言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
この自動的なプロセスの間、エージェントは一連のアクションを取らなければならない。
したがって、そのようなエージェントは、不適切な行動の潜在的なコストを避けるために、信頼が不十分な時に行動することを延期することがある。
低リスク設定エージェントはより自由に答えるべきであり、高リスク設定では彼らの決定はより保守的であるべきである。
本稿では, 人間の特定リスク構造を体系的に変化させる評価枠組みを用いて, 正解, 正解, 誤答, 棄却に対する罰則を体系的に変化させる手法について検討する。
この設計は、期待される報酬を最大化する能力を測定することにより、LMのリスク対応意思決定ポリシーを評価する。
LMはリスクの高い設定では過度に答える傾向があり、リスクの低い設定では過度に遅延する傾向があります。
このような欠陥の潜在的な原因を解析した結果、回答や判断に要する独立したスキルを分離する単純なスキル分解手法が、LMの意思決定ポリシーを一貫して改善できることが判明した。
本研究は、リスク条件決定におけるLMの現在の限界を強調し、リスクレベルの異なるアプリケーションにまたがって、より信頼性の高いLMベースのエージェントをデプロイするための実践的ガイダンスを提供する。
関連論文リスト
- FROC: A Unified Framework with Risk-Optimized Control for Machine Unlearning in LLMs [28.687949604557986]
大規模言語モデル(LLM)における機械学習のためのリスクd制御を用いた統合フレームワークFROCを提案する。
FROCは、非学習行動におけるユーザが特定したリスク予算を表現するコンフォメーションスタイルのリスクコントロールの定式化を中心に構築されている。
複数のLLM MU法による実験により、FROCは安定で解釈可能なリスクランドスケープを生成することが示された。
論文 参考訳(メタデータ) (2025-12-15T13:53:12Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Can Risk-taking AI-Assistants suitably represent entities [0.0]
本研究では,言語モデル(LM)におけるリスク回避の操作性について検討する。
性別固有の態度、不確実性、役割に基づく意思決定、リスク回避の操作性に焦点を当てている。
結果は、人間とAIのリスク選好をより良く整合させるために、AI設計を洗練するための方向性を示唆している。
論文 参考訳(メタデータ) (2025-10-09T11:55:31Z) - Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents [30.378925170216835]
大言語モデル(LLM)エージェントの自己複製リスクは、客観的なミスアライメントによって増大している。
本稿では,自己複製リスクの定量化のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:49:50Z) - LM Agents May Fail to Act on Their Own Risk Knowledge [15.60032437959883]
言語モデル(LM)エージェントは、安全クリティカルなシナリオにおいて、様々な潜在的な、深刻なリスクをもたらす。
Sudo rm -rf /*' が危険なのか?」といった質問に対して "Yes" と答えることが多いが、インスタンス化された軌跡におけるそのようなリスクを特定できない可能性が高い。
論文 参考訳(メタデータ) (2025-08-19T02:46:08Z) - Case-based Reasoning Augmented Large Language Model Framework for Decision Making in Realistic Safety-Critical Driving Scenarios [1.5367554212163714]
本稿では,ケースベース推論拡張大言語モデル(CBR-LLM)フレームワークを提案する。
本手法は,ダッシュカム映像からのセマンティックシーン理解と,関連する過去の運転事例の検索を統合する。
実験により、我々のフレームワークは意思決定の正確さ、品質の正当化、および人間の専門家の行動との整合性を改善することが示された。
論文 参考訳(メタデータ) (2025-06-25T15:19:25Z) - Extending Epistemic Uncertainty Beyond Parameters Would Assist in Designing Reliable LLMs [40.7342896954488]
我々は、不確実性を推論し、不確実性の再現性を明確化するコヒーレントな基盤を提供する枠組みの採用を提唱する。
受動的回避よりも能動的解決をサポートすることで、より信頼性が高く透明で広く適用可能なLCMシステムへの扉を開くことができる。
論文 参考訳(メタデータ) (2025-06-09T05:52:03Z) - Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning [40.55486479495965]
大規模言語モデル (LLM) は様々なNLPベンチマークで顕著な成功を収めている。
本研究では,LLMにおける推論と安全性の相互作用について検討する。
推論能力が向上し、これまで見過ごされていた脆弱性に光を当てることによって生じる、潜伏する安全性のリスクを強調します。
論文 参考訳(メタデータ) (2025-02-13T06:37:28Z) - RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs [29.832360523402592]
本稿では,画像に基づく質問応答におけるあいまいさの異なる側面を対象とするデータセットであるRACQUETを紹介する。
我々は、その応答のあいまいさに対処する上で、最先端の大規模マルチモーダル言語モデルの過信に関する重大な制限と問題を明らかにする。
本結果は, 望ましくないステレオタイプに頼らずに不確実性に対処する頑健な戦略を持つモデルの導入の緊急性を強調した。
論文 参考訳(メタデータ) (2024-12-18T13:25:11Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - DeFine: Decision-Making with Analogical Reasoning over Factor Profiles [35.9909472797192]
textscDeFineは複雑なシナリオから確率係数プロファイルを構築するモジュラーフレームワークである。
次に、これらのプロファイルと類似の推論を統合して、新しい状況における重要な決定をLCMに導く。
このアプローチは、不確実性の下での意思決定が不可欠であるコンサルティングや金融交渉といった分野において特に有用である。
論文 参考訳(メタデータ) (2024-10-02T17:29:34Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference [3.422309388045878]
ChatGPTのような大規模言語モデル(LLM)は、重大なリスクをもたらすことが知られている。
モデルが推論に持っている過信または過信から、誤った信頼が生じる。
本稿では,2段階の推論アーキテクチャと,そのようなリスクを測定するための適切な指標からなる実験フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-04T05:24:32Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - ABI Approach: Automatic Bias Identification in Decision-Making Under Risk based in an Ontology of Behavioral Economics [46.57327530703435]
損失回避のようなバイアスによって引き起こされる損失に対する優先順位を求めるリスクは、課題を引き起こし、深刻なネガティブな結果をもたらす可能性がある。
本研究は,リスクサーチの選好を自動的に識別し,説明することにより,組織意思決定者を支援する新しいソリューションであるABIアプローチを紹介する。
論文 参考訳(メタデータ) (2024-05-22T23:53:46Z) - DeLLMa: Decision Making Under Uncertainty with Large Language Models [31.77731889916652]
DeLLMaは不確実な環境での意思決定の精度を高めるために設計されたフレームワークである。
DeLLMaは主要な言語モデルの意思決定性能を継続的に向上し、競合する手法に比べて最大40%の精度向上を達成できることを示す。
論文 参考訳(メタデータ) (2024-02-04T08:11:45Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - On solving decision and risk management problems subject to uncertainty [91.3755431537592]
不確実性は意思決定とリスク管理において広範囲にわたる課題である。
本稿では,このような戦略を体系的に理解し,その適用範囲を判断し,それらをうまく活用するための枠組みを開発する。
論文 参考訳(メタデータ) (2023-01-18T19:16:23Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Enhancing Covid-19 Decision-Making by Creating an Assurance Case for
Simulation Models [7.241250079741012]
我々は、重要な政策決定を導くのに使用される新型コロナウイルスのシミュレーションモデルが、保証ケースで支持されることの恩恵を受けると論じている。
これにより、モデリングにおける暗黙の仮定と固有の不確実性に対する批判的なレビューが可能になり、全体的な意思決定プロセスの透明性と説明責任が向上する。
論文 参考訳(メタデータ) (2020-05-17T22:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。