論文の概要: From Literal to Liberal: A Meta-Prompting Framework for Eliciting Human-Aligned Exception Handling in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.12864v1
- Date: Tue, 14 Oct 2025 16:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.367866
- Title: From Literal to Liberal: A Meta-Prompting Framework for Eliciting Human-Aligned Exception Handling in Large Language Models
- Title(参考訳): リテラルからリベラルへ:大規模言語モデルにおけるヒューマンアライン例外処理のメタプロンプトフレームワーク
- Authors: Imran Khan,
- Abstract要約: エージェントAIシステムの推論エンジンとして,大規模言語モデル(LLM)がますます普及している。
明確な規則に固執し、人間の常識や意図に反する決定を下す。
本稿では,LLMにおけるヒューマンアラインな例外処理をゼロショット方式で導入するルール・インテント・ディチネンション(RID)フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 0.3946915822335988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being deployed as the reasoning engines for agentic AI systems, yet they exhibit a critical flaw: a rigid adherence to explicit rules that leads to decisions misaligned with human common sense and intent. This "rule-rigidity" is a significant barrier to building trustworthy autonomous agents. While prior work has shown that supervised fine-tuning (SFT) with human explanations can mitigate this issue, SFT is computationally expensive and inaccessible to many practitioners. To address this gap, we introduce the Rule-Intent Distinction (RID) Framework, a novel, low-compute meta-prompting technique designed to elicit human-aligned exception handling in LLMs in a zero-shot manner. The RID framework provides the model with a structured cognitive schema for deconstructing tasks, classifying rules, weighing conflicting outcomes, and justifying its final decision. We evaluated the RID framework against baseline and Chain-of-Thought (CoT) prompting on a custom benchmark of 20 scenarios requiring nuanced judgment across diverse domains. Our human-verified results demonstrate that the RID framework significantly improves performance, achieving a 95% Human Alignment Score (HAS), compared to 80% for the baseline and 75% for CoT. Furthermore, it consistently produces higher-quality, intent-driven reasoning. This work presents a practical, accessible, and effective method for steering LLMs from literal instruction-following to liberal, goal-oriented reasoning, paving the way for more reliable and pragmatic AI agents.
- Abstract(参考訳): エージェントAIシステムの推論エンジンとして大規模言語モデル(LLM)がますますデプロイされているが、重大な欠陥がある。
この「ル・リジダリティ」は、信頼できる自律エージェントを構築する上で重要な障壁である。
以前の研究では、人的説明を伴う教師付き微調整(SFT)がこの問題を緩和できることが示されているが、SFTは計算コストが高く、多くの実践者にとってアクセスできない。
このギャップに対処するために,LLMにおけるヒューマンアラインな例外処理をゼロショットで引き出すために設計された,新しい低スループットメタプロンプト技術であるルール・インテント・ディセクション(RID)フレームワークを導入する。
RIDフレームワークは、タスクをデコンストラクションし、ルールを分類し、矛盾する結果を評価し、最終的な決定を正当化するための構造化された認知スキーマをモデルに提供する。
RIDフレームワークをベースラインとChain-of-Thought (CoT) に対して評価し、さまざまな領域でニュアンスな判断を必要とする20のシナリオのカスタムベンチマークを行った。
その結果, RID フレームワークは 95% のHuman Alignment Score (HAS) を実現し, ベースラインの80%, CoT の75% を達成できた。
さらに、高品質で意図駆動の推論を一貫して生成します。
この研究は、リテラル命令追従からリベラルでゴール指向の推論へLLMを操り、より信頼性が高く実用的なAIエージェントの道を歩むための実用的でアクセスしやすい効果的な方法を示す。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - LLM-Guided Semantic Relational Reasoning for Multimodal Intent Recognition [14.683883775425821]
本稿では,マルチモーダル信号から人間の意図を理解する新しい手法を提案する。
この方法は、大きな言語モデル(LLM)の拡張的な知識を活用して意味的基盤を確立する。
マルチモーダルな意図と対話行動タスクの実験は、LGSRRが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-01T10:18:47Z) - When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models [9.05950721565821]
大規模言語モデル(LLM)における戦略的偽造について研究する。
我々は、CoT対応LLMにおいて、そのような偽造を誘導し、検出し、制御する。
明示的なプロンプトを伴わずに、文脈に適した詐欺を誘発する成功率を40%達成する。
論文 参考訳(メタデータ) (2025-06-05T11:44:19Z) - Teaching AI to Handle Exceptions: Supervised Fine-Tuning with Human-Aligned Judgment [0.0]
大規模言語モデル(LLM)はエージェントAIシステムへと進化している。
推論に優れるLCMでさえ、政策に厳格に従うため、人間の判断から大きく逸脱していることを示す。
次に、例外を処理するためにAIエージェントをチューニングするための3つのアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:00:37Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。