論文の概要: GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms
- arxiv url: http://arxiv.org/abs/2603.18469v1
- Date: Thu, 19 Mar 2026 04:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.951366
- Title: GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms
- Title(参考訳): GAIN:不完全なノルムの下での大規模言語モデルのゴールアライズされた意思決定のためのベンチマーク
- Authors: Masayuki Kawarada, Kodai Watanabe, Soichiro Murakami,
- Abstract要約: 我々は,大規模言語モデルがビジネス目標に対する規範の適合性をどのように評価するかを評価するために設計されたベンチマークを導入する。
目標アライメント、リスク回避、感情/アプリケーション、社会的/権威的影響、個人インセンティブの5つのタイプを定義します。
このベンチマークは、雇用、カスタマーサポート、広告、財務の4つの領域にわたる1200のシナリオで構成されている。
- 参考スコア(独自算出の注目度): 3.6158033114580683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GAIN (Goal-Aligned Decision-Making under Imperfect Norms), a benchmark designed to evaluate how large language models (LLMs) balance adherence to norms against business goals. Existing benchmarks typically focus on abstract scenarios rather than real-world business applications. Furthermore, they provide limited insights into the factors influencing LLM decision-making. This restricts their ability to measure models' adaptability to complex, real-world norm-goal conflicts. In GAIN, models receive a goal, a specific situation, a norm, and additional contextual pressures. These pressures, explicitly designed to encourage potential norm deviations, are a unique feature that differentiates GAIN from other benchmarks, enabling a systematic evaluation of the factors influencing decision-making. We define five types of pressures: Goal Alignment, Risk Aversion, Emotional/Ethical Appeal, Social/Authoritative Influence, and Personal Incentive. The benchmark comprises 1,200 scenarios across four domains: hiring, customer support, advertising and finance. Our experiments show that advanced LLMs frequently mirror human decision-making patterns. However, when Personal Incentive pressure is present, they diverge significantly, showing a strong tendency to adhere to norms rather than deviate from them.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)がビジネス目標に対する規範にどのように依存するかを評価するためのベンチマークであるGAIN(Goal-Aligned Decision-Making under Imperfect Norms)を紹介する。
既存のベンチマークは通常、現実世界のビジネスアプリケーションではなく、抽象的なシナリオに焦点を当てます。
さらに、LLM意思決定に影響を与える要因について限定的な洞察を提供する。
これにより、複雑な現実世界のノルムゴールの衝突に対するモデルの適応性を測定する能力が制限される。
GAINでは、モデルは目標、特定の状況、規範、追加のコンテキストプレッシャーを受け取る。
これらのプレッシャーは、潜在的なノルム偏差を促進するように設計されており、GAINと他のベンチマークを区別するユニークな特徴であり、意思決定に影響を与える要因の体系的な評価を可能にしている。
目標アライメント,リスク回避,情緒的/倫理的アピール,社会的/権威的影響,個人的インセンティブの5つのタイプを定義した。
このベンチマークは、雇用、カスタマーサポート、広告、財務の4つの領域にわたる1200のシナリオで構成されている。
実験の結果,高度なLCMは人間の意思決定パターンを反映していることがわかった。
しかし、個人意識の圧力が存在する場合、それらは著しくばらつき、それらから逸脱するよりも規範に固執する傾向が強い。
関連論文リスト
- Where Norms and References Collide: Evaluating LLMs on Normative Reasoning [3.8431932182760296]
ロボットのような身体的エージェントは、コミュニケーションの成功が社会的規範の推論に依存することが多い場所にいる環境で対話する必要がある。
大規模な言語モデル(LLM)がこのような推論をサポートできるかどうかは不明だ。
SNIC(Situated Norms in Context)は,最先端のLCMがNBRRに関連する規範的原則をいかに抽出し,活用できるかを探索する,有能な診断テストベッドである。
論文 参考訳(メタデータ) (2026-02-03T01:23:22Z) - Stress-Testing Model Specs Reveals Character Differences among Language Models [23.505192393830807]
大規模言語モデル(LLM)は、AI構成とモデル仕様からますます訓練されている。
本稿では,ストレステストモデルキャラクタ仕様の体系的手法を提案する。
我々は、現在のモデル仕様における矛盾と解釈の曖昧さの多くの事例を同定する。
論文 参考訳(メタデータ) (2025-10-09T02:24:37Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - User-centric Subjective Leaderboard by Customizable Reward Modeling [34.40455169451943]
ユーザ中心型主観的リーダーシップ(USL)について紹介する。
さまざまな現実世界のシナリオにまたがって、大規模言語モデル(LLM)の好み駆動の動的ランキングを提供する。
我々の研究は、10万件以上の主観的クエリを含む、実際の人間の嗜好データの徹底的な調査に基づいている。
論文 参考訳(メタデータ) (2025-08-13T03:39:04Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models [6.9347404883379316]
大規模言語モデル(LLM)は、ますます人間の生活に統合され、意思決定に影響を及ぼしている。
主観的嗜好、意見、信念をどの程度、どの程度提示するかを評価することが不可欠である。
本稿では、社会的、文化的、倫理的、個人的領域にまたがるLLMの主観的傾向を評価するために、POB(Preference, Opinion, and Belief Survey)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:41:21Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - When Prompting Fails to Sway: Inertia in Moral and Value Judgments of Large Language Models [4.906478894661688]
大規模言語モデル (LLMs) は非決定論的行動を示し、その出力を所望の方向に向けて操る主要な方法としてプロンプトが登場した。
一般的な戦略の一つは、人間の視点で見られる多様性に似た、より多様で文脈に敏感な反応を誘発するために、特定の「ペルソナ」をモデルに割り当てることである。
我々の実験は、LLMが一貫した値配向を維持することを示した。
特に,特定の道徳的・価値的次元,特に回避と公正さが,さまざまなペルソナ設定にもかかわらず,一方向に明確に歪められたままである,持続的慣性を観察する。
論文 参考訳(メタデータ) (2024-08-16T23:24:10Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。