論文の概要: Teaching AI to Handle Exceptions: Supervised Fine-Tuning with Human-Aligned Judgment
- arxiv url: http://arxiv.org/abs/2503.02976v1
- Date: Tue, 04 Mar 2025 20:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:28.005342
- Title: Teaching AI to Handle Exceptions: Supervised Fine-Tuning with Human-Aligned Judgment
- Title(参考訳): 例外に対処するAIを教える - 人間の判断による微調整を監督する
- Authors: Matthew DosSantos DiSorbo, Harang Ju, Sinan Aral,
- Abstract要約: 大規模言語モデル(LLM)はエージェントAIシステムへと進化している。
推論に優れるLCMでさえ、政策に厳格に従うため、人間の判断から大きく逸脱していることを示す。
次に、例外を処理するためにAIエージェントをチューニングするための3つのアプローチを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs), initially developed for generative AI, are now evolving into agentic AI systems, which make decisions in complex, real-world contexts. Unfortunately, while their generative capabilities are well-documented, their decision-making processes remain poorly understood. This is particularly evident when models are handling exceptions, a critical and challenging aspect of decision-making made relevant by the inherent incompleteness of contracts. Here we demonstrate that LLMs, even ones that excel at reasoning, deviate significantly from human judgments because they adhere strictly to policies, even when such adherence is impractical, suboptimal, or even counterproductive. We then evaluate three approaches to tuning AI agents to handle exceptions: ethical framework prompting, chain-of-thought reasoning, and supervised fine-tuning. We find that while ethical framework prompting fails and chain-of-thought prompting provides only slight improvements, supervised fine-tuning, specifically with human explanations, yields markedly better results. Surprisingly, in our experiments, supervised fine-tuning even enabled models to generalize human-like decision-making to novel scenarios, demonstrating transfer learning of human-aligned decision-making across contexts. Furthermore, fine-tuning with explanations, not just labels, was critical for alignment, suggesting that aligning LLMs with human judgment requires explicit training on how decisions are made, not just which decisions are made. These findings highlight the need to address LLMs' shortcomings in handling exceptions in order to guide the development of agentic AI toward models that can effectively align with human judgment and simultaneously adapt to novel contexts.
- Abstract(参考訳): ジェネレーティブAIのために開発された大規模言語モデル(LLM)は、現在ではエージェントAIシステムへと進化し、複雑な現実世界のコンテキストで意思決定を行っている。
残念ながら、それらの生成能力は十分に文書化されているものの、意思決定プロセスは理解されていないままである。
これは、モデルが例外を扱う場合に特に顕著で、契約の固有の不完全性によって関係づけられた決定の批判的かつ挑戦的な側面である。
ここでは、LLMは、たとえ非現実的、最適でない、あるいは非生産的であっても、政策に厳格に従属するため、人間の判断からかなり逸脱していることを示す。
次に、例外を処理するためにAIエージェントをチューニングするための3つのアプローチを評価する。
倫理的枠組みが失敗を促し、チェーン・オブ・プルーピングがわずかに改善しただけであるのに対して、微調整は、特に人間の説明によって監督され、成果が著しく向上することがわかった。
驚くべきことに、我々の実験では、微調整を監督することで、人間のような意思決定を新しいシナリオに一般化できるモデルさえも可能となり、コンテキストをまたいだ人間による意思決定の伝達学習が実証された。
さらに、ラベルだけでなく説明を伴う微調整は、人間の判断とLCMを一致させるには、どの決定が下されるかだけでなく、どのように決定が下されるかを明確に訓練する必要があることを示唆している。
これらの知見は、人間の判断に効果的に適応し、新しい文脈に同時に適応できるモデルに向けたエージェントAIの開発を促進するために、例外を扱う上でのLLMの欠点に対処する必要性を強調している。
関連論文リスト
- MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Towards Responsible AI in Banking: Addressing Bias for Fair
Decision-Making [69.44075077934914]
責任AI(Responsible AI)は、企業文化の発展におけるバイアスに対処する重要な性質を強調している。
この論文は、バイアスを理解すること、バイアスを緩和すること、バイアスを説明することの3つの基本的な柱に基づいて構成されている。
オープンソースの原則に従って、アクセス可能なPythonパッケージとして、Bias On DemandとFairViewをリリースしました。
論文 参考訳(メタデータ) (2024-01-13T14:07:09Z) - On the meaning of uncertainty for ethical AI: philosophy and practice [10.591284030838146]
これは、数学的推論に倫理的考察をもたらす重要な方法であると主張する。
我々は、2021年12月のOmicron型COVID-19の拡散について、英国政府に助言するために使用される競合モデルの文脈内でこれらのアイデアを実証する。
論文 参考訳(メタデータ) (2023-09-11T15:13:36Z) - In Search of Verifiability: Explanations Rarely Enable Complementary
Performance in AI-Advised Decision Making [25.18203172421461]
説明は、人間の意思決定者がAIの予測の正しさを検証できる範囲でのみ有用である、と我々は主張する。
また、補完性能の目的と適切な依存度を比較し、後者を結果段階と戦略段階の信頼度の概念に分解する。
論文 参考訳(メタデータ) (2023-05-12T18:28:04Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Learning Behavioral Soft Constraints from Demonstrations [31.34800444313487]
本稿では,状態,行動,状態特徴に対する暗黙の厳密な制約を学習するための新しい逆強化学習法を提案する。
本手法は,エージェント設計者による明示的なモデリングを必要とせず,人的制約や欲求を暗黙的に学習することを可能にする。
論文 参考訳(メタデータ) (2022-02-21T18:09:56Z) - Making Human-Like Trade-offs in Constrained Environments by Learning
from Demonstrations [30.738257457765755]
本稿では,実証実験から暗黙の硬さと柔らかい制約を学習するための新しい逆強化学習法を提案する。
次に、制約学習法を用いて、競合する目的を編成する新しいシステムアーキテクチャを実装します。
提案するエージェントは,軌道長,違反した制約数,総報酬について評価し,エージェントアーキテクチャが汎用的かつ高い性能を示すことを示す。
論文 参考訳(メタデータ) (2021-09-22T20:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。