論文の概要: Risk Profiling and Modulation for LLMs
- arxiv url: http://arxiv.org/abs/2509.23058v3
- Date: Tue, 07 Oct 2025 02:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.68543
- Title: Risk Profiling and Modulation for LLMs
- Title(参考訳): LLMのリスクプロファイリングと変調
- Authors: Yikai Wang, Xiaocheng Li, Guanting Chen,
- Abstract要約: 大規模言語モデル(LLM)は、不確実性の下で意思決定タスクにますます使われている。
既存の研究では、主にパーソナリティ・プロンプトやマルチエージェントの相互作用について研究されている。
我々は,ポストトレーニングがリスク嗜好の最も安定かつ効果的な調整を提供することを示した。
- 参考スコア(独自算出の注目度): 13.78222262131574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for decision-making tasks under uncertainty; however, their risk profiles and how they are influenced by prompting and alignment methods remain underexplored. Existing studies have primarily examined personality prompting or multi-agent interactions, leaving open the question of how post-training influences the risk behavior of LLMs. In this work, we propose a new pipeline for eliciting, steering, and modulating LLMs' risk profiles, drawing on tools from behavioral economics and finance. Using utility-theoretic models, we compare pre-trained, instruction-tuned, and RLHF-aligned LLMs, and find that while instruction-tuned models exhibit behaviors consistent with some standard utility formulations, pre-trained and RLHF-aligned models deviate more from any utility models fitted. We further evaluate modulation strategies, including prompt engineering, in-context learning, and post-training, and show that post-training provides the most stable and effective modulation of risk preference. Our findings provide insights into the risk profiles of different classes and stages of LLMs and demonstrate how post-training modulates these profiles, laying the groundwork for future research on behavioral alignment and risk-aware LLM design.
- Abstract(参考訳): 大規模言語モデル(LLM)は、不確実性の下で意思決定タスクに使用されることが多いが、そのリスクプロファイルや、プロンプトやアライメント手法の影響が過小評価されている。
既存の研究は、主にパーソナリティ・プロンプトやマルチエージェントの相互作用を調査しており、ポストトレーニングがLSMのリスク行動にどのように影響するかという疑問を残している。
本研究では, LLMのリスクプロファイルを抽出, ステアリング, 調整するための新しいパイプラインを提案する。
ユーティリティ理論モデルを用いて、事前学習、命令調整、およびRLHF対応のLCMを比較し、命令調整モデルはいくつかの標準的なユーティリティ定式化と整合した振る舞いを示すが、事前学習およびRLHF対応のモデルはどのユーティリティモデルからより逸脱することを発見した。
我々はさらに、迅速な工学、文脈内学習、ポストトレーニングを含む変調戦略を評価し、ポストトレーニングがリスク嗜好の最も安定かつ効果的な変調を提供することを示す。
本研究は,LCMのリスクプロファイルに関する知見を提供し,今後の行動アライメントとリスク対応LCM設計研究の基盤となる,ポストトレーニングがこれらのプロファイルをどう調節するかを実証するものである。
関連論文リスト
- Estimating the Effects of Sample Training Orders for Large Language Models without Retraining [49.59675538160363]
大規模言語モデル(LLM)において,サンプルの訓練順序が重要な役割を担っている
従来の手法では、様々なサンプル順序でモデルを再訓練する必要がある。
リトレーニングフリーのフレームワークを設計することで従来の手法を改善します。
論文 参考訳(メタデータ) (2025-05-28T07:07:02Z) - LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Aligning LLM with human travel choices: a persona-based embedding learning approach [15.11130742093296]
本稿では,大規模言語モデルと人間の旅行選択行動の整合性を示す新しい枠組みを提案する。
我々のフレームワークは、パーソナ推論とロードプロセスを使用して、アライメントを強化するのに適したプロンプトでLLMを条件付けします。
論文 参考訳(メタデータ) (2025-05-25T06:54:01Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Guiding Reinforcement Learning Using Uncertainty-Aware Large Language Models [1.2233495442213964]
大きな言語モデル(LLMs)は、RLサンプルの非効率を軽減し、人間のトレーナーを置き換える可能性のある代替手段を提供する。
LLMアドバイスの信頼性を高めるためにモンテカルロ・ドロップアウトを用いた校正誘導システムにより,この制限に対処する。
また、動的モデル平均エントロピーに基づく新しいRLポリシー形成手法を開発し、ガイダンスの不確実性に応じてLLMがRLポリシーに与える影響を調整する。
論文 参考訳(メタデータ) (2024-11-15T22:00:29Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。