論文の概要: ORCHID: Orchestrated Retrieval-Augmented Classification with Human-in-the-Loop Intelligent Decision-Making for High-Risk Property
- arxiv url: http://arxiv.org/abs/2511.04956v1
- Date: Fri, 07 Nov 2025 03:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.66415
- Title: ORCHID: Orchestrated Retrieval-Augmented Classification with Human-in-the-Loop Intelligent Decision-Making for High-Risk Property
- Title(参考訳): ORCHID:高リスク特性のための人間型知的意思決定を用いた検索強化分類
- Authors: Maria Mahbub, Vanessa Lama, Sanjay Das, Brian Starks, Christopher Polchek, Saffell Silvers, Lauren Deck, Prasanna Balaprakash, Tirthankar Ghosal,
- Abstract要約: ORCHIDは、HRP分類のためのモジュール型エージェントシステムである。
検索強化世代(RAG)を人間の監視と組み合わせて、監査可能なポリシベースのアウトプットを生成する。
デモでは、単一項目の提出、接地された引用、中小企業のフィードバックキャプチャ、エクスポート可能な監査アーティファクトなどが紹介されている。
- 参考スコア(独自算出の注目度): 6.643427585499247
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-Risk Property (HRP) classification is critical at U.S. Department of Energy (DOE) sites, where inventories include sensitive and often dual-use equipment. Compliance must track evolving rules designated by various export control policies to make transparent and auditable decisions. Traditional expert-only workflows are time-consuming, backlog-prone, and struggle to keep pace with shifting regulatory boundaries. We demo ORCHID, a modular agentic system for HRP classification that pairs retrieval-augmented generation (RAG) with human oversight to produce policy-based outputs that can be audited. Small cooperating agents, retrieval, description refiner, classifier, validator, and feedback logger, coordinate via agent-to-agent messaging and invoke tools through the Model Context Protocol (MCP) for model-agnostic on-premise operation. The interface follows an Item to Evidence to Decision loop with step-by-step reasoning, on-policy citations, and append-only audit bundles (run-cards, prompts, evidence). In preliminary tests on real HRP cases, ORCHID improves accuracy and traceability over a non-agentic baseline while deferring uncertain items to Subject Matter Experts (SMEs). The demonstration shows single item submission, grounded citations, SME feedback capture, and exportable audit artifacts, illustrating a practical path to trustworthy LLM assistance in sensitive DOE compliance workflows.
- Abstract(参考訳): ハイリスク・プロパティー(HRP)の分類は、アメリカ合衆国エネルギー省(DOE)のサイトにおいて重要であり、在庫には敏感で、しばしば二重用途の機器が含まれる。
コンプライアンスは、透明で監査可能な決定を行うために、様々な輸出管理ポリシーによって指定された進化するルールを追跡する必要がある。
従来の専門家のみのワークフローは、時間を要すること、バックログの傾向、規制境界のシフトに伴うペースの維持に苦労する。
本稿では,HRP分類のためのモジュール型エージェントシステムORCHIDのデモを行う。
小型の協調エージェント、検索、記述精算器、分類器、バリデータ、フィードバックロガー、エージェントからエージェントへのメッセージングを介してコーディネートし、モデルに依存しないオンプレミス操作のためにモデルコンテキストプロトコル(MCP)を介してツールを呼び出す。
インターフェースは、ステップバイステップの推論、オンポリシーの引用、追加のみの監査バンドル(ランカード、プロンプト、エビデンス)を備えた、決定ループへのアイテムのエビデンスに従っている。
実際のHRP症例に対する予備試験では、ORCHIDは不確実な項目を対象事項専門家(SME)に委譲しながら、非エージェントベースライン上の精度とトレーサビリティを向上させる。
デモでは、単一項目の提出、接地された引用、中小企業のフィードバックキャプチャ、輸出可能な監査アーティファクトが紹介され、センシティブなDOEコンプライアンスワークフローにおける信頼性の高いLLM支援への実践的なパスが説明されている。
関連論文リスト
- Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - "Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems [2.2981698355892686]
本稿では,新しいMLOps検証フレームワークであるZKMLOpsを紹介する。
ZKP(Zero-Knowledge Proofs)暗号プロトコルを運用し、証明者が証明者に対して、文が真実であることを納得させることができる。
我々は、金融リスク監査における規制コンプライアンスの研究を通じて、この枠組みの実践性を評価する。
論文 参考訳(メタデータ) (2025-10-30T15:03:32Z) - Analyzing and Internalizing Complex Policy Documents for LLM Agents [53.14898416858099]
大規模言語モデル(LLM)ベースのエージェントシステムは、多様なビジネスルールをコードするコンテキスト内ポリシー文書に依存している。
これは、パフォーマンスを保ちながら、ポリシー文書をモデルプリエントに組み込む内部化手法の開発を動機付けます。
CC-Genは4つのレベルにまたがる制御可能な複雑度を持つエージェントベンチマークジェネレータである。
論文 参考訳(メタデータ) (2025-10-13T16:30:07Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - CORTEX: Collaborative LLM Agents for High-Stakes Alert Triage [10.088447487211893]
SOC(Security Operations Centers)は、毎日何万ものアラートに圧倒されている。
この過負荷は警告の疲労を引き起こし、見過ごされた脅威やアナリストのバーンアウトにつながる。
警告トリアージのためのマルチエージェントLLMアーキテクチャであるCORTEXを提案する。
論文 参考訳(メタデータ) (2025-09-30T22:09:31Z) - Hallucination-Resistant, Domain-Specific Research Assistant with Self-Evaluation and Vector-Grounded Retrieval [0.0]
RA-FSMはGPTベースの研究アシスタントであり、有限状態制御ループで生成をラップする。
コントローラはスコープ外クエリをフィルタリングし、応答可能性を評価し、質問を分解し、必要なときにのみ検索をトリガーする。
本稿では,フォトニクスのためのシステムを実装し,解析的推論,数値解析,方法論的批判,比較合成,事実抽出,アプリケーション設計の6つのカテゴリで評価する。
論文 参考訳(メタデータ) (2025-09-25T21:35:46Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。