論文の概要: Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations
- arxiv url: http://arxiv.org/abs/2410.13204v1
- Date: Thu, 17 Oct 2024 04:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:16.274141
- Title: Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations
- Title(参考訳): 軍事危機シミュレーションにおける自由形式決定-言語モデルの整合性の測定
- Authors: Aryan Shrivastava, Jessica Hullman, Max Lamparth,
- Abstract要約: BERTScoreに基づくメトリクスを用いて、応答の不整合を定量的に測定する。
その結果,5つのLMは意味的差異を示す不整合のレベルを示すことがわかった。
我々は、軍事的決定を通知するためにLMを使用する前に、さらなる検討を行うことを推奨する。
- 参考スコア(独自算出の注目度): 12.887834116390358
- License:
- Abstract: There is an increasing interest in using language models (LMs) for automated decision-making, with multiple countries actively testing LMs to aid in military crisis decision-making. To scrutinize relying on LM decision-making in high-stakes settings, we examine the inconsistency of responses in a crisis simulation ("wargame"), similar to reported tests conducted by the US military. Prior work illustrated escalatory tendencies and varying levels of aggression among LMs but were constrained to simulations with pre-defined actions. This was due to the challenges associated with quantitatively measuring semantic differences and evaluating natural language decision-making without relying on pre-defined actions. In this work, we query LMs for free form responses and use a metric based on BERTScore to measure response inconsistency quantitatively. Leveraging the benefits of BERTScore, we show that the inconsistency metric is robust to linguistic variations that preserve semantic meaning in a question-answering setting across text lengths. We show that all five tested LMs exhibit levels of inconsistency that indicate semantic differences, even when adjusting the wargame setting, anonymizing involved conflict countries, or adjusting the sampling temperature parameter $T$. Further qualitative evaluation shows that models recommend courses of action that share few to no similarities. We also study the impact of different prompt sensitivity variations on inconsistency at temperature $T = 0$. We find that inconsistency due to semantically equivalent prompt variations can exceed response inconsistency from temperature sampling for most studied models across different levels of ablations. Given the high-stakes nature of military deployment, we recommend further consideration be taken before using LMs to inform military decisions or other cases of high-stakes decision-making.
- Abstract(参考訳): 自動意思決定に言語モデル(LM)を使用することへの関心が高まっており、複数の国が軍事危機意思決定を支援するために積極的にLMをテストしている。
高所でのLM意思決定への依存を精査するため、米軍が実施した報告試験と同様、危機シミュレーション(ウォーゲーム)における応答の不整合について検討した。
従来の研究では、LM間のエスカレーション傾向と様々な攻撃レベルが説明されていたが、事前に定義された動作を伴うシミュレーションに制限されていた。
これは、事前に定義されたアクションに頼ることなく、意味的差異を定量的に測定し、自然言語による意思決定を評価することに関連する課題である。
本研究では,自由形式の応答に対してLMを問合せし,BERTScoreに基づくメトリクスを用いて応答の不整合を定量的に測定する。
BERTScoreの利点を生かして,文章の長さにまたがる問合せにおける意味的意味を保った言語的変化に対して,不整合度が頑健であることを示す。
その結果,5つのLMは,ウォーゲームの設定を調整したり,競合する国を匿名化したり,サンプリング温度パラメータを$T$に調整したりしても,意味的差異を示す不整合性のレベルを示すことがわかった。
さらに質的な評価は、モデルは類似点がほとんどないし全くないアクションのコースを推奨していることを示している。
また,温度がT=0$で不整合に与える影響についても検討した。
意味論的に等価なプロンプト変動による不整合性は,様々なレベルにまたがる多くの研究モデルに対して,温度サンプリングによる応答不整合性を上回ることが判明した。
軍事配備の高度性を考えると、軍事的決定やその他の高額な意思決定の事例を伝えるために、LMを使用する前に、さらなる検討を行うことを推奨する。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。
このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。
我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-13T11:48:09Z) - Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。
この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations [1.6108153271585284]
大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
論文 参考訳(メタデータ) (2024-03-06T02:23:32Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。