論文の概要: Neuro-Symbolic Verification on Instruction Following of LLMs
- arxiv url: http://arxiv.org/abs/2601.17789v1
- Date: Sun, 25 Jan 2026 11:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.393679
- Title: Neuro-Symbolic Verification on Instruction Following of LLMs
- Title(参考訳): LLMの指示追従に関する神経・筋肉学的検証
- Authors: Yiming Su, Kunzhao Xu, Yanjie Gao, Fan Yang, Cheng Li, Mao Yang, Tianyin Xu,
- Abstract要約: NSVIF は LLM の出力が LLM を誘導する命令に従うかどうかを検証するための神経象徴的枠組みである。
NSVIFは,ユーザ命令を制約としてモデル化することにより,命令追従検証を制約満足問題として定式化する。
細粒度データラベルを用いた命令追従検証のための新しいベンチマークであるVIFBENCHを開発した。
- 参考スコア(独自算出の注目度): 12.64007593490092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental problem of applying Large Language Models (LLMs) to important applications is that LLMs do not always follow instructions, and violations are often hard to observe or check. In LLM-based agentic workflows, such violations can propagate and amplify along reasoning chains, causing task failures and system incidents. This paper presents NSVIF, a neuro-symbolic framework for verifying whether an LLM's output follows the instructions used to prompt the LLM. NSVIF is a universal, general-purpose verifier; it makes no assumption about the instruction or the LLM. NSVIF formulates instruction-following verification as a constraint-satisfaction problem by modeling user instructions as constraints. NSVIF models both logical and semantic constraints; constraint solving is done by a unified solver that orchestrates logical reasoning and semantic analysis. To evaluate NSVIF, we develop VIFBENCH, a new benchmark for instruction-following verifiers with fine-grained data labels. Experiments show that NSVIF significantly outperforms LLM-based approaches and provides interpretable feedback. We also show that feedback from NSVIF helps improve LLMs' instruction-following capability without post-training.
- Abstract(参考訳): LLM(Large Language Models)を重要なアプリケーションに適用する根本的な問題は、LLMが必ずしも命令に従うとは限らないこと、違反が観察や確認が難しいこと、である。
LLMベースのエージェントワークフローでは、そのような違反は推論チェーンに沿って伝播し、増幅し、タスク障害やシステムインシデントを引き起こす。
本稿では, LLM の出力が LLM の誘導に使用される命令に従うかどうかを検証するための, ニューロシンボリック・フレームワーク NSVIF を提案する。
NSVIF は普遍的で汎用的な検証であり、命令や LLM については仮定しない。
NSVIFは,ユーザ命令を制約としてモデル化することにより,命令追従検証を制約満足問題として定式化する。
NSVIFは論理的制約と意味論的制約の両方をモデル化する。
NSVIFを評価するために,詳細なデータラベルを持つ命令追従検証のための新しいベンチマークであるVIFBENCHを開発した。
実験の結果,NSVIF は LLM のアプローチを著しく上回り,解釈可能なフィードバックを提供することがわかった。
また,NSVIF からのフィードバックは,後学習をせずに LLM の命令追従能力を向上することを示す。
関連論文リスト
- Empowering Reliable Visual-Centric Instruction Following in MLLMs [30.078761482873745]
MLLMの命令追従能力を評価するための既存のベンチマークは、主に言語命令に焦点を当てている。
我々は、体系的に構築されたデータセットを伴う新しいベンチマークであるVC-IFEvalを紹介する。
本ベンチマークでは,視覚に依存した制約を命令設計に体系的に組み込んで,より厳密できめ細かな評価を可能にする。
論文 参考訳(メタデータ) (2026-01-06T17:23:33Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [91.79567270986901]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。