論文の概要: Audit, Alignment, and Optimization of LM-Powered Subroutines with Application to Public Comment Processing
- arxiv url: http://arxiv.org/abs/2507.08109v1
- Date: Thu, 10 Jul 2025 18:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.148534
- Title: Audit, Alignment, and Optimization of LM-Powered Subroutines with Application to Public Comment Processing
- Title(参考訳): LMパワーサブルーチンの監査・アライメント・最適化と公開コメント処理への応用
- Authors: Reilly Raab, Mike Parker, Dan Nally, Sadie Montgomery, Anastasia Bernat, Sai Munikoti, Sameera Horawalavithana,
- Abstract要約: 本稿では,従来の非同期コードで使用するために,LMを用いたサブルーチンを宣言するフレームワークを提案する。
我々は,環境レビューを必要とするプロジェクトに対して提出されたパブリックコメントのコーパスをコンパイルし,整理し,要約するアプリケーションであるCommentNEPAを開発するために,このフレームワークを使用する。
- 参考スコア(独自算出の注目度): 2.0417058495510374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of language models (LMs) has the potential to dramatically accelerate tasks that may be cast to text-processing; however, real-world adoption is hindered by concerns regarding safety, explainability, and bias. How can we responsibly leverage LMs in a transparent, auditable manner -- minimizing risk and allowing human experts to focus on informed decision-making rather than data-processing or prompt engineering? In this work, we propose a framework for declaring statically typed, LM-powered subroutines (i.e., callable, function-like procedures) for use within conventional asynchronous code -- such that sparse feedback from human experts is used to improve the performance of each subroutine online (i.e., during use). In our implementation, all LM-produced artifacts (i.e., prompts, inputs, outputs, and data-dependencies) are recorded and exposed to audit on demand. We package this framework as a library to support its adoption and continued development. While this framework may be applicable across several real-world decision workflows (e.g., in healthcare and legal fields), we evaluate it in the context of public comment processing as mandated by the 1969 National Environmental Protection Act (NEPA): Specifically, we use this framework to develop "CommentNEPA," an application that compiles, organizes, and summarizes a corpus of public commentary submitted in response to a project requiring environmental review. We quantitatively evaluate the application by comparing its outputs (when operating without human feedback) to historical ``ground-truth'' data as labelled by human annotators during the preparation of official environmental impact statements.
- Abstract(参考訳): 言語モデル(LM)の出現は、テキスト処理に投じられるタスクを劇的に加速させる可能性があるが、実際の採用は安全性、説明可能性、バイアスに関する懸念によって妨げられている。
リスクを最小限に抑え、データ処理やエンジニアリングの促進よりも、人間の専門家が情報に基づく意思決定に集中できるようにする。
本研究では,従来の非同期コードで使用するために,静的型付けされたLMベースのサブルーチン(すなわち,呼び出し可能な関数ライクなプロシージャ)を宣言するフレームワークを提案する。
我々の実装では、すべてのLM生成アーティファクト(プロンプト、インプット、アウトプット、データ依存)が記録され、必要に応じて監査される。
私たちはこのフレームワークをライブラリとしてパッケージ化し、その採用と継続的な開発を支援します。
本枠組みは, 現実の意思決定ワークフロー(例えば, 医療・法分野)において適用可能であるが, 1969年国家環境保護法(NEPA)により規定された公開コメント処理の文脈で評価する: 具体的には, 環境レビューを必要とするプロジェクトに対して提出されたパブリックコメントのコーパスをコンパイル, 整理, 要約するアプリケーションであるCommentNEPAを開発するために, この枠組みを利用する。
本研究は, 人体環境影響評価書作成時に, 人体アノテータによってラベル付けされた歴史的「地中真実」データと, その出力(人体フィードバックなしで動作した場合)を比較して, 応用を定量的に評価する。
関連論文リスト
- ACCESS DENIED INC: The First Benchmark Environment for Sensitivity Awareness [2.5967788365637103]
大規模言語モデル(LLM)は、様々な文書フォーマットからテキストを処理する能力のため、企業データ管理にとってますます価値が増している。
この研究は、敏感な言語モデルの基礎を確立し、企業環境におけるプライバシ中心のAIシステムを強化するための洞察を提供する。
論文 参考訳(メタデータ) (2025-06-01T11:24:23Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - Can AI automatically analyze public opinion? A LLM agents-based agentic pipeline for timely public opinion analysis [3.1894345568992346]
本研究では,マルチタスク公開世論分析のための LLM エージェントベースエージェントパイプラインの提案と実装を行う。
従来の方法とは異なり、ドメイン固有のトレーニングデータを必要とせずに、エンドツーエンドで完全に自動化された分析ワークフローを提供する。
単一の自然言語クエリを通じて、タイムリーで統合された公開世論分析を可能にする。
論文 参考訳(メタデータ) (2025-05-16T16:09:28Z) - DICE: A Framework for Dimensional and Contextual Evaluation of Language Models [1.534667887016089]
言語モデル(LM)は、広範囲のアプリケーションに統合されつつある。
現在の評価は、LMがデプロイされている現実世界のコンテキストに直接適用できないことが多いベンチマークに依存している。
本研究では, 粒度, 文脈に依存した次元上での LM の評価手法であるDICE を提案する。
論文 参考訳(メタデータ) (2025-04-14T16:08:13Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Benchmarking LLMs for Environmental Review and Permitting [10.214978239010849]
国家環境政策法(National Environment Policy Act, NEPA)は、連邦機関に対して、提案された行動の環境への影響を検討することを要求する。
NEPAのような専門分野におけるLarge Language Model (LLM)の有効性は、連邦の意思決定プロセスに採用されることが証明されていない。
EIS文書から派生した最初の総合ベンチマークである NEPAQuAD を提示する。
論文 参考訳(メタデータ) (2024-07-10T02:33:09Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。
オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T04:00:30Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。