論文の概要: SafePassage: High-Fidelity Information Extraction with Black Box LLMs
- arxiv url: http://arxiv.org/abs/2510.00276v1
- Date: Tue, 30 Sep 2025 20:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.25398
- Title: SafePassage: High-Fidelity Information Extraction with Black Box LLMs
- Title(参考訳): SafePassage:Black Box LLMによる高信頼情報抽出
- Authors: Joe Barrow, Raj Patel, Misha Kharkovski, Ben Davies, Ryan Schmitt,
- Abstract要約: ブラックボックスの大規模言語モデル(LLM)は、情報抽出(IE)を簡単に構成できるが、信頼しにくい。
本稿では, LLM が生成したコンテキストを文書に格納し, 抽出した情報と整合する「安全な通路」の概念を紹介する。
これら3つの部品を併用することにより、幻覚を最大85%減らし、非幻覚をフラグ付けするリスクを最小限に抑える。
- 参考スコア(独自算出の注目度): 6.5404806332891114
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Black box large language models (LLMs) make information extraction (IE) easy to configure, but hard to trust. Unlike traditional information extraction pipelines, the information "extracted" is not guaranteed to be grounded in the document. To prevent this, this paper introduces the notion of a "safe passage": context generated by the LLM that is both grounded in the document and consistent with the extracted information. This is operationalized via a three-step pipeline, SafePassage, which consists of: (1) an LLM extractor that generates structured entities and their contexts from a document, (2) a string-based global aligner, and (3) a scoring model. Results show that using these three parts in conjunction reduces hallucinations by up to 85% on information extraction tasks with minimal risk of flagging non-hallucinations. High agreement between the SafePassage pipeline and human judgments of extraction quality mean that the pipeline can be dually used to evaluate LLMs. Surprisingly, results also show that using a transformer encoder fine-tuned on a small number of task-specific examples can outperform an LLM scoring model at flagging unsafe passages. These annotations can be collected in as little as 1-2 hours.
- Abstract(参考訳): ブラックボックスの大規模言語モデル(LLM)は、情報抽出(IE)を簡単に構成できるが、信頼しにくい。
従来の情報抽出パイプラインとは異なり、「抽出」された情報は文書に根拠を置くことは保証されていない。
そこで本稿では,LLM が生成したコンテキストを文書に格納し,抽出した情報と一致させる「安全な通路」の概念を提案する。
1)構造化エンティティとドキュメントからコンテキストを生成するLCM抽出器,(2)文字列ベースのグローバルアライメント器,(3)スコアリングモデルで構成される。
その結果,これら3つの部品を併用することにより,幻覚を最大85%減らし,非幻覚のフラグ付けを最小限に抑えることができた。
SafePassageパイプラインと抽出品質の人為的判断との間の高い一致は、パイプラインをLLMを評価するために2つの用途に使用できることを意味する。
意外なことに、少数のタスク固有の例に微調整されたトランスフォーマーエンコーダを使用することで、安全でないパスのフラグ付けにおいてLCMスコアリングモデルより優れていることが示されている。
これらのアノテーションは、わずか1~2時間で収集できる。
関連論文リスト
- Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences [18.36319991890607]
本稿では,Large Language Model(LLM)推論の安全性と信頼性を高めるために設計されたガードレールパイプラインであるWildflare GuardRailを紹介する。
Wildflare GuardRailは、セーフティインプットを識別し、モデルアウトプットの幻覚を検出するSafety Detectorなど、いくつかのコア機能モジュールを統合している。
軽量なラッパーは、コストのかかるモデルコールなしで、クエリ毎に1.06sのモデル出力で悪意のあるURLに100%の精度で対処できる。
論文 参考訳(メタデータ) (2025-02-12T05:48:57Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - A Guide To Effectively Leveraging LLMs for Low-Resource Text Summarization: Data Augmentation and Semi-supervised Approaches [12.582774521907227]
低リソーステキスト要約のための既存のアプローチは、主に推論時に大きな言語モデル(LLM)を使用して要約を直接生成する。
低リソーステキスト要約に LLM を効果的に活用する2つの新しい手法を提案する: 1) LLM ベースのデータ拡張方式である MixSumm と、(2) PPSL は、サンプル効率の半教師付きテキスト要約のための即時的な擬似ラベル方式である。
論文 参考訳(メタデータ) (2024-07-10T03:25:47Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection [50.805599761583444]
大規模な言語モデルは、事実性や幻覚の難しさによって制限され、ニュース記事の正確さを判断するために、棚外で直接使用される。
我々は,LLMをパイプラインの一部として組み込む誤情報検出の3つの重要な段階を同定するDellを提案する。
論文 参考訳(メタデータ) (2024-02-16T03:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。