論文の概要: VITAL: A New Dataset for Benchmarking Pluralistic Alignment in Healthcare
- arxiv url: http://arxiv.org/abs/2502.13775v1
- Date: Wed, 19 Feb 2025 14:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:05.969033
- Title: VITAL: A New Dataset for Benchmarking Pluralistic Alignment in Healthcare
- Title(参考訳): VITAL: 医療における多元的アライメントのベンチマークのための新しいデータセット
- Authors: Anudeex Shetty, Amin Beheshti, Mark Dras, Usman Naseem,
- Abstract要約: 既存のアライメントパラダイムは、文化、人口統計学、地域社会における視点の多様性を説明できない。
これは、文化、宗教、個人的価値観、矛盾する意見の影響により複数のことが不可欠である健康関連シナリオにおいて特に重要である。
この研究は、現在のアプローチの限界を強調し、健康固有のアライメントソリューションを開発するための基盤となる。
- 参考スコア(独自算出の注目度): 9.087074203425061
- License:
- Abstract: Alignment techniques have become central to ensuring that Large Language Models (LLMs) generate outputs consistent with human values. However, existing alignment paradigms often model an averaged or monolithic preference, failing to account for the diversity of perspectives across cultures, demographics, and communities. This limitation is particularly critical in health-related scenarios, where plurality is essential due to the influence of culture, religion, personal values, and conflicting opinions. Despite progress in pluralistic alignment, no prior work has focused on health, likely due to the unavailability of publicly available datasets. To address this gap, we introduce VITAL, a new benchmark dataset comprising 13.1K value-laden situations and 5.4K multiple-choice questions focused on health, designed to assess and benchmark pluralistic alignment methodologies. Through extensive evaluation of eight LLMs of varying sizes, we demonstrate that existing pluralistic alignment techniques fall short in effectively accommodating diverse healthcare beliefs, underscoring the need for tailored AI alignment in specific domains. This work highlights the limitations of current approaches and lays the groundwork for developing health-specific alignment solutions.
- Abstract(参考訳): 調整技術は、Large Language Models (LLM) が人間の値と整合した出力を生成することを保証するために中心になっている。
しかし、既存のアライメントパラダイムは平均的またはモノリシックな選好をモデル化することが多く、文化、人口統計学、地域社会における視点の多様性を考慮していない。
この制限は、文化、宗教、個人的価値観、矛盾する意見の影響により、複数のことが不可欠である健康関連シナリオにおいて特に重要である。
多面的なアライメントの進展にもかかわらず、おそらく公開データセットが利用できないため、健康に焦点を当てた以前の研究は行われていない。
このギャップに対処するために、13.1Kの値レイデン状況と健康に焦点を当てた5.4Kの多重選択質問からなる新しいベンチマークデータセットVITALを導入し、多元的アライメント手法の評価とベンチマークを行う。
様々なサイズの8つのLDMを広範囲に評価することにより、既存の多元的アライメント技術は、特定の領域におけるAIアライメントの調整の必要性を強調し、多様な医療的信念を効果的に収容するのに不足していることを示す。
この研究は、現在のアプローチの限界を強調し、健康固有のアライメントソリューションを開発するための基盤となる。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - ABC Align: Large Language Model Alignment for Safety & Accuracy [0.0]
大規模言語モデル(LLM)のための新しいアライメント手法ABC Alignを提案する。
合成データ生成、選好最適化、ポストトレーニングモデル量子化における最近のブレークスルーの上に構築された一連のデータとメソッドを組み合わせる。
我々の統一的なアプローチは、標準ベンチマークに対して測定されたように、バイアスを軽減し、推論能力を保ちながら精度を向上させる。
論文 参考訳(メタデータ) (2024-08-01T06:06:25Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Generalization in medical AI: a perspective on developing scalable
models [3.003979691986621]
多くの名高いジャーナルは、ローカルに隠されたテストセットと外部データセットの両方でレポート結果を要求するようになった。
これは、病院文化全体で意図された用途や特異性で発生する変動性によるものである。
医用AIアルゴリズムの一般化レベルを反映した階層型3段階尺度システムを構築した。
論文 参考訳(メタデータ) (2023-11-09T14:54:28Z) - Robust Stance Detection: Understanding Public Perceptions in Social Media [15.460495567765362]
スタンス検出は、明確に定義されたトピックに対する正確な位置を特定する。
従来のスタンス検出モデルは、新しいドメインやトピックに適用すると、パフォーマンスが低下することが多い。
本稿では,反実データ拡張と対照的な学習を組み合わせることで,姿勢検出の堅牢性を高める方法を提案する。
論文 参考訳(メタデータ) (2023-09-26T18:19:51Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by
Diminishing Bias [38.26934474189853]
Med-UniC (Med-UniC) は、英語とスペイン語のマルチモーダル医療データを統合したものである。
Med-UniCは、5つの医療画像タスクと30以上の疾患を含む10のデータセットで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-31T14:28:19Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Representational Ethical Model Calibration [0.7078141380481605]
エピステム・エクイティ(英: Epistem equity)は、意思決定におけるインテリジェンスの比較忠実度である。
その量化の一般的な枠組みは、言うまでもなく、保証は存在しない。
表現倫理モデルのための包括的枠組みを導入する。
論文 参考訳(メタデータ) (2022-07-25T10:33:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。