論文の概要: Retrieval Augmented Classification for Confidential Documents
- arxiv url: http://arxiv.org/abs/2604.08628v1
- Date: Thu, 09 Apr 2026 16:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.504381
- Title: Retrieval Augmented Classification for Confidential Documents
- Title(参考訳): 機密文書の検索強化分類
- Authors: Yeseul E. Chang, Rahul Kailasa, Simon Shim, Byunghoon Oh, Jaewoo Lee,
- Abstract要約: 本稿では,RAC(Retrieval Augmented Classification)を用いた機密文書の分類手法を提案する。
バランスの取れたデータでは、RACはリアルなシーケンス長制約の下でWikiLeaks US Diplomacy corpusの微調整(FT)を監督する。
RACは、モデルの重みから機密性の高いコンテンツをコントロール下に保持することで、強力な分類への実用的なセキュリティ保護パスを提供します。
- 参考スコア(独自算出の注目度): 5.476917206291993
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unauthorized disclosure of confidential documents demands robust, low-leakage classification. In real work environments, there is a lot of inflow and outflow of documents. To continuously update knowledge, we propose a methodology for classifying confidential documents using Retrieval Augmented Classification (RAC). To confirm this effectiveness, we compare RAC and supervised fine tuning (FT) on the WikiLeaks US Diplomacy corpus under realistic sequence-length constraints. On balanced data, RAC matches FT. On unbalanced data, RAC is more stable while delivering comparable performance--about 96% Accuracy on both the original (unbalanced) and augmented (balanced) sets, and up to 94% F1 with proper prompting--whereas FT attains 90% F1 trained on the augmented, balanced set but drops to 88% F1 trained on the original, unbalanced set. When robust augmentation is infeasible, RAC provides a practical, security-preserving path to strong classification by keeping sensitive content out of model weights and under your control, and it remains robust as real-world conditions change in class balance, data, context length, or governance requirements. Because RAC grounds decisions in an external vector store with similarity matching, it is less sensitive to label skew, reduces parameter-level leakage, and can incorporate new data immediately via reindexing--a difficult step for FT, which typically requires retraining. The contributions of this paper are threefold: first, a RAC-based classification pipeline and evaluation recipe; second, a controlled study that isolates class imbalance and context-length effects for FT versus RAC in confidential-document grading; and third, actionable guidance on RAC design patterns for governed deployments.
- Abstract(参考訳): 機密文書の無許可開示は、堅牢で低レベルな分類を要求する。
実際の作業環境では、ドキュメントのインフローとアウトフローがたくさんあります。
知識を継続的に更新するために,検索拡張分類(RAC)を用いて機密文書を分類する手法を提案する。
この有効性を確認するため, WikiLeaks US Diplomacy CorpusにおけるRACと教師付き微調整(FT)を比較した。
バランスの取れたデータでは、RACはFTと一致します。
バランスの取れていないデータでは、RACは、元の(バランスの取れていない)セットと拡張された(バランスの取れていない)セットの両方で約96%の精度、そして適切なプロンプトを持つF1までの94%の精度を提供する一方で、FTは、強化されたバランスの取れたセットでトレーニングされた90%のF1を達成するが、元のバランスの取れていないセットでトレーニングされた88%のF1に低下する。
堅牢な拡張が実現不可能な場合、RACは、モデルの重みから機密性の高いコンテンツをコントロール下に保持することで、強力な分類への実用的なセキュリティ保護パスを提供します。
RACは、類似性にマッチした外部ベクターストアで決定を下すため、ラベルスキューに敏感ではなく、パラメータレベルのリークを低減し、再インデックスによって即座に新しいデータを組み込むことができる。
本論文のコントリビューションは,第1にRACに基づく分類パイプラインと評価レシピ,第2に,秘密文書分類におけるFTとRACのクラス不均衡と文脈長の影響を分離する制御された研究,第3に,管理されたデプロイメントのためのRAC設計パターンに関する実行可能なガイダンスの3つである。
関連論文リスト
- FedSQ: Optimized Weight Averaging via Fixed Gating [1.2058208023553034]
フェデレーション学習は、生データを共有することなく、組織間で協調的なトレーニングを可能にする。
本稿では、DualCopyに基づくトランスファードニューラルフェデレーションであるFedSQ(Federated Structure-Quantitative Learning)を提案する。
ゲーティングの固定は、学習を不均一な分割下での凝集を安定化するアフィン内部の精製に還元する。
論文 参考訳(メタデータ) (2026-04-03T11:54:23Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。
RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文 参考訳(メタデータ) (2026-02-26T02:45:22Z) - Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - DyKnow-RAG: Dynamic Knowledge Utilization Reinforcement Framework for Noisy Retrieval-Augmented Generation in E-commerce Search Relevance [7.605150700675235]
DyKnow-RAGは、グループ相対ポリシー最適化に基づいて構築された動的ノイズ-RAGフレームワークである。
2つのロールアウトグループ(外部コンテキストと単一の取得チャンク)をトレーニングし、後続駆動によるグループ間アドバンテージスケーリングを適用する。
タオバオの生産関連システムに配備され、生の交通に供されている。
論文 参考訳(メタデータ) (2025-10-13T08:08:59Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Accelerating Heterogeneous Federated Learning with Closed-form Classifiers [23.133964735844007]
フェデレートラーニング(FL)手法は、しばしば非常に統計的に異質な設定で苦労する。
Fed3R(Federated Recursive Ridge Regression)を紹介する。
Fed3Rは統計的不均一性に免疫を持ち、クライアントのサンプリング順序に不変である。
論文 参考訳(メタデータ) (2024-06-03T08:52:06Z) - Fed-Credit: Robust Federated Learning with Credibility Management [18.349127735378048]
Federated Learning(FL)は、分散デバイスやデータソースのモデルトレーニングを可能にする、新興の機械学習アプローチである。
我々は、Fed-Creditと呼ばれる信頼性管理手法に基づく堅牢なFLアプローチを提案する。
その結果、比較的低い計算複雑性を維持しながら、敵攻撃に対する精度とレジリエンスが向上した。
論文 参考訳(メタデータ) (2024-05-20T03:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。