論文の概要: Language Models are Alignable Decision-Makers: Dataset and Application to the Medical Triage Domain
- arxiv url: http://arxiv.org/abs/2406.06435v1
- Date: Mon, 10 Jun 2024 16:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:59:23.974644
- Title: Language Models are Alignable Decision-Makers: Dataset and Application to the Medical Triage Domain
- Title(参考訳): 言語モデルと意思決定 - データセットと医学的トリアージ領域への応用-
- Authors: Brian Hu, Bill Ray, Alice Leung, Amy Summerville, David Joy, Christopher Funk, Arslan Basharat,
- Abstract要約: 我々は,一組の意思決定属性(DMA)をラベル付けした医療トリアージ意思決定のための新しいデータセットを提案する。
このデータセットは62のシナリオで構成され、公正性や道徳的砂漠といった倫理的原則を含む6つの異なるDMAをカバーする。
本稿では、これらのDMAを活用して、ヒューマンアラインな意思決定のための新しいソフトウェアフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.519511988273693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In difficult decision-making scenarios, it is common to have conflicting opinions among expert human decision-makers as there may not be a single right answer. Such decisions may be guided by different attributes that can be used to characterize an individual's decision. We introduce a novel dataset for medical triage decision-making, labeled with a set of decision-maker attributes (DMAs). This dataset consists of 62 scenarios, covering six different DMAs, including ethical principles such as fairness and moral desert. We present a novel software framework for human-aligned decision-making by utilizing these DMAs, paving the way for trustworthy AI with better guardrails. Specifically, we demonstrate how large language models (LLMs) can serve as ethical decision-makers, and how their decisions can be aligned to different DMAs using zero-shot prompting. Our experiments focus on different open-source models with varying sizes and training techniques, such as Falcon, Mistral, and Llama 2. Finally, we also introduce a new form of weighted self-consistency that improves the overall quantified performance. Our results provide new research directions in the use of LLMs as alignable decision-makers. The dataset and open-source software are publicly available at: https://github.com/ITM-Kitware/llm-alignable-dm.
- Abstract(参考訳): 難しい意思決定のシナリオでは、専門家の意思決定者の間で矛盾する意見を持つことが一般的である。
このような決定は、個人の決定を特徴づけるために使用できる異なる属性によって導かれるかもしれない。
本稿では,医療トリアージ意思決定のための新しいデータセットについて紹介する。
このデータセットは62のシナリオで構成され、公正性や道徳的砂漠といった倫理的原則を含む6つの異なるDMAをカバーする。
我々は、これらのDMAを活用して、より優れたガードレールを備えた信頼できるAIを実現することによって、人間と協調した意思決定のための新しいソフトウェアフレームワークを提案する。
具体的には、大規模言語モデル(LLM)が倫理的意思決定者として機能し、その決定がゼロショットプロンプトを用いて異なるDMAとどのように一致しているかを示す。
実験では,FalconやMistral,Llama 2.0など,さまざまなサイズとトレーニング技術を備えたさまざまなオープンソースモデルに注目した。
最後に、全体としての定量化性能を改善するために、新しい形式の重み付き自己整合性を導入する。
本研究は,LCMを整合性決定因子として用いるための新たな研究指針を提供する。
データセットとオープンソースソフトウェアは、https://github.com/ITM-Kitware/llm-alignable-dm.comで公開されている。
関連論文リスト
- Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,DA手法の評価と,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの公平な評価を行うフレームワークを提案する。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Large Language Models for Explainable Decisions in Dynamic Digital Twins [3.179208155005568]
動的データ駆動型Digital Twins(DDT)は、インフォームドな意思決定を可能にし、基盤となるシステムのための最適化プラットフォームを提供する。
本稿では,大規模言語モデル(LLM)を用いてDDTの説明可能性プラットフォームを提案する。
ドメイン固有の知識ベースを活用することにより、システムの意思決定に関する自然言語の説明を生成する。
論文 参考訳(メタデータ) (2024-05-23T10:32:38Z) - Enhancing Decision Analysis with a Large Language Model: pyDecision a Comprehensive Library of MCDA Methods in Python [0.0]
Pythonで実装されたpyDecisionライブラリは、マルチ基準決定分析メソッドの包括的なコレクションを提供する。
pyDecisionがChatGPTを統合した。ChatGPTは先進的な大規模言語モデルで、意思決定者はChatGPTを使用してさまざまなメソッドの結果を議論し比較することができる。
論文 参考訳(メタデータ) (2024-04-09T15:06:25Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Trustworthy AI: Deciding What to Decide [41.10597843436572]
我々は,AIの重要なコンポーネントを含む,信頼に値するAI(TAI)の新しいフレームワークを提案する。
我々は,この枠組みを用いて,定量的および定性的な研究手法によるTAI実験を実施することを目指している。
技術分野における信用デフォルトスワップ(CDS)の戦略的投資決定を適用するための最適予測モデルを定式化する。
論文 参考訳(メタデータ) (2023-11-21T13:43:58Z) - One Model Many Scores: Using Multiverse Analysis to Prevent Fairness Hacking and Evaluate the Influence of Model Design Decisions [4.362723406385396]
設計と評価の決定の公平さをよりよく理解するために,多変量解析をどのように利用できるかを示す。
結果から,システム評価に関する決定が,同じモデルに対して,極めて異なる公平度指標を導出する可能性を強調した。
論文 参考訳(メタデータ) (2023-08-31T12:32:43Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Indecision Modeling [50.00689136829134]
AIシステムは人間の価値観に合わせて行動することが重要である。
人々はしばしば決定的ではなく、特に彼らの決定が道徳的な意味を持つときです。
論文 参考訳(メタデータ) (2020-12-15T18:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。