Fugu-MT 論文翻訳(概要): Systematic Characterization of the Effectiveness of Alignment in Large Language Models for Categorical Decisions

論文の概要: Systematic Characterization of the Effectiveness of Alignment in Large Language Models for Categorical Decisions

arxiv url: http://arxiv.org/abs/2409.18995v1
Date: Wed, 18 Sep 2024 19:03:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 05:10:43.381668
Title: Systematic Characterization of the Effectiveness of Alignment in Large Language Models for Categorical Decisions
Title（参考訳）: カテゴリー決定のための大規模言語モデルにおけるアライメントの有効性の体系的評価
Authors: Isaac Kohane,
Abstract要約: 本稿では,大規模言語モデル(LLM)において,医学的トリアージによるカテゴリー決定における選好アライメントを評価するための体系的手法を適用した。また、アライメント手順が特定のモデルのアライメントをどのように効率的に変更するかを測定する。その結果、モデル間のアライメントの有効性とアライメントアプローチの相違が明らかとなった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: As large language models (LLMs) are deployed in high-stakes domains like healthcare, understanding how well their decision-making aligns with human preferences and values becomes crucial, especially when we recognize that there is no single gold standard for these preferences. This paper applies a systematic methodology for evaluating preference alignment in LLMs on categorical decision-making with medical triage as a domain-specific use case. It also measures how effectively an alignment procedure will change the alignment of a specific model. Key to this methodology is a novel simple measure, the Alignment Compliance Index (ACI), that quantifies how effectively a LLM can be aligned to a given preference function or gold standard. Since the ACI measures the effect rather than the process of alignment, it is applicable to alignment methods beyond the in-context learning used in this study. Using a dataset of simulated patient pairs, three frontier LLMs (GPT4o, Claude 3.5 Sonnet, and Gemini Advanced) were assessed on their ability to make triage decisions consistent with an expert clinician's preferences. The models' performance before and after alignment attempts was evaluated using various prompting strategies. The results reveal significant variability in alignment effectiveness across models and alignment approaches. Notably, models that performed well, as measured by ACI, pre-alignment sometimes degraded post-alignment, and small changes in the target preference function led to large shifts in model rankings. The implicit ethical principles, as understood by humans, underlying the LLMs' decisions were also explored through targeted questioning. This study motivates the use of a practical set of methods and the ACI, in the near term, to understand the correspondence between the variety of human and LLM decision-making values in categorical decision-making such as triage.
Abstract（参考訳）: 大規模言語モデル(LLM)がヘルスケアのようなハイテイクなドメインにデプロイされるにつれて、意思決定が人間の好みや価値観とどのように一致しているかを理解することが重要になります。本稿では,医学的三元化による分類的意思決定における LLM の嗜好の整合性を評価するための体系的手法を,ドメイン固有のユースケースとして適用する。また、アライメント手順が特定のモデルのアライメントをどのように効率的に変更するかを測定する。この方法論の鍵となるのは、新しい単純な尺度であるアライメントコンプライアンス指標(Alignment Compliance Index, ACI)である。 ACIはアライメントのプロセスではなく,その効果を測定するため,本研究で使用される文脈内学習以外のアライメント手法にも適用可能である。シミュレーションされた患者ペアのデータセットを用いて, 3つのフロンティアLSM(GPT4o, Claude 3.5 Sonnet, Gemini Advanced)を, 専門医の好みと整合したトリアージ決定を行う能力について評価した。モデルのアライメント前後のパフォーマンスを,様々なプロンプト戦略を用いて評価した。その結果、モデル間のアライメントの有効性とアライメントアプローチの相違が明らかとなった。特に、ACIが測定したように、事前調整が後配向を低下させる場合があり、ターゲットの選好関数の小さな変更は、モデルランキングに大きな変化をもたらした。人間によって理解された暗黙の倫理的原則は、LLMの判断の根底にあるものでもある。本研究は, 実用的手法の利用を動機とし, ACIを短期的に活用して, トリアージなどのカテゴリー的意思決定における多種多様な人間とLLMの意思決定値の対応を理解する。

関連論文リスト

Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences? [5.542420010310746]
批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。この研究は正式に定義され、この選好偏差を測定する方法を提案する。我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
論文参考訳（メタデータ） (2025-05-31T23:38:48Z)
Exploring Model Editing for LLM-based Aspect-Based Sentiment Classification [17.512415475301395]
本研究では,大規模言語モデル(LLM)をアスペクトベース感情分類に適応させる効率的な手法として,モデル編集について検討する。この結果から,特定のアスペクト単語の感情極性を検出するには,異なる中間層表現のセットが不可欠であることが判明した。我々は,LLMの重要な部分にのみ焦点をあてたモデル編集手法を開発し,より効率的なLLM適応法を実現する。
論文参考訳（メタデータ） (2025-03-19T11:21:37Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文参考訳（メタデータ） (2024-10-31T20:05:51Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Aligning (Medical) LLMs for (Counterfactual) Fairness [2.089191490381739]
大規模言語モデル(LLM)は、医療および臨床決定支援アプリケーションのための有望なソリューションとして登場した。 LLMは様々な種類のバイアスを受けており、個人の不公平な扱い、健康格差の悪化、AIが強化された医療ツールへの信頼の低下につながる可能性がある。本稿では, 知識蒸留フレームワークにおける優先最適化手法を用いて, LLMの整列化のための新しいモデルアライメント手法を提案する。
論文参考訳（メタデータ） (2024-08-22T01:11:27Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文参考訳（メタデータ） (2024-06-17T09:48:53Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
PoliTune: Analyzing the Impact of Data Selection and Fine-Tuning on Economic and Political Biases in Large Language Models [1.1704154007740835]
大規模言語モデル(LLM)における微調整とデータ選択が経済的・政治的バイアスに与える影響について検討する。特定のイデオロギーとLLMの整合性を検討するための微調整手法であるPoliTuneを紹介した。我々は、データセットの選択、アノテーション、DPO(Direct Preference Optimization)のための選好データセットの合成にオープンソースのLlama3-70Bを使用する体系的手法を導入し、そのモデルと所定の政治的イデオロギーを整合させる。
論文参考訳（メタデータ） (2024-04-10T16:30:09Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Improving the compromise between accuracy, interpretability and personalization of rule-based machine learning in medical problems [0.08594140167290096]
特定の患者に対してルールが正しいか否かを予測するための新しいコンポーネントを導入し、その手順にパーソナライズを導入する。 3つの公開臨床データセットを用いた検証結果から,選択したルールセットの予測性能の向上も可能であることが示された。
論文参考訳（メタデータ） (2021-06-15T01:19:04Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。