論文の概要: Offscript: Automated Auditing of Instruction Adherence in LLMs
- arxiv url: http://arxiv.org/abs/2512.10172v1
- Date: Thu, 11 Dec 2025 00:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.125322
- Title: Offscript: Automated Auditing of Instruction Adherence in LLMs
- Title(参考訳): 原文:LLMにおけるインストラクションアジェンス監査の自動化
- Authors: Nicholas Clark, Ryan Bai, Tanu Mitra,
- Abstract要約: 大規模言語モデル(LLM)における障害後の潜在的命令を効率的に識別する自動監査ツールであるOffscriptを提案する。
Redditからソースされたカスタムインストラクションを分析するパイロットスタディで、Offscriptは86.4%の会話で指示された振る舞いから潜在的な逸脱を検知した。
本研究は,自動監査が,情報検索に関連する行動指示の遵守を評価するための有効な手法であることを示唆している。
- 参考スコア(独自算出の注目度): 0.15293427903448023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and generative search systems are increasingly used for information seeking by diverse populations with varying preferences for knowledge sourcing and presentation. While users can customize LLM behavior through custom instructions and behavioral prompts, no mechanism exists to evaluate whether these instructions are being followed effectively. We present Offscript, an automated auditing tool that efficiently identifies potential instruction following failures in LLMs. In a pilot study analyzing custom instructions sourced from Reddit, Offscript detected potential deviations from instructed behavior in 86.4% of conversations, 22.2% of which were confirmed as material violations through human review. Our findings suggest that automated auditing serves as a viable approach for evaluating compliance to behavioral instructions related to information seeking.
- Abstract(参考訳): 大規模言語モデル(LLM)や生成検索システムは、知識ソーシングやプレゼンテーションに様々な好みを持つ多様な集団から情報を求めるために、ますます使われてきている。
ユーザーはカスタムインストラクションや行動プロンプトを通じてLDMの動作をカスタマイズできるが、これらの命令が効果的にフォローされているかどうかを評価するメカニズムは存在しない。
自動監査ツールであるOffscriptについて述べる。
Redditからソースされたカスタムインストラクションを分析するパイロットスタディで、Offscriptは86.4%の会話で指示された行動から潜在的な逸脱を検知し、そのうち22.2%は人間のレビューによって物質的違反であると確認された。
本研究は,自動監査が,情報検索に関連する行動指示の遵守を評価するための有効な手法であることを示唆している。
関連論文リスト
- Exploring the Impact of Instruction-Tuning on LLM's Susceptibility to Misinformation [3.032542495872679]
本研究では,大規模言語モデルが誤情報に対する感受性に与える影響について検討する。
分析の結果,命令調整型LPMはユーザによって提示された誤情報を受けやすいことがわかった。
論文 参考訳(メタデータ) (2025-07-24T08:58:47Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。
本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-24T06:53:36Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。